Neues Protein-Sprachmodell revolutioniert Allergenvorhersage

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Wissenschaftler haben ein neues Tool namens Applm entwickelt, das allergene Proteine mit bisher unerreichter Genauigkeit erkennt. Das System nutzt das 100‑Billionen‑Parameter‑Modell xTrimoPGLM, das auf einer Billion Tokens trainiert wurde, um die feinen Unterschiede in Proteinsequenzen zu erfassen.

Applm übertrifft sieben führende Methoden in einer Reihe von anspruchsvollen Aufgaben, die reale Szenarien widerspiegeln. Dazu gehören die Identifikation von bislang unbekannten Allergenen, die Unterscheidung von Allergenen und Nicht‑Allergenen unter hochgradig homologen Proteinen sowie die Bewertung von Mutationen, die nur minimale Änderungen an der Sequenz verursachen.

Die Ergebnisse zeigen, dass die enorme Trainingsbasis von xTrimoPGLM entscheidend für die Leistungsfähigkeit von Applm ist. Das Team stellt die Software als Open‑Source‑Projekt zur Verfügung und teilt sorgfältig kuratierte Benchmark‑Datensätze, um die weitere Forschung in diesem wichtigen Bereich zu fördern.

Ähnliche Artikel