Neuer Ansatz: Globale Protein-Tokenisierung verbessert Modellleistung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben einen innovativen Weg zur Tokenisierung von Proteinstrukturen vorgestellt, der die Grenzen herkömmlicher, lokaler Ansätze überwindet. Durch die sukzessive Hinzufügung von Tokens, die immer mehr Details liefern, entsteht eine globale Repräsentation, die Fehlerakkumulation reduziert und ohne Sequenzreduktion auskommt.

Der neue Tokenizer wurde in einer Vielzahl von Aufgaben getestet – von der Rekonstruktion über generative Modelle bis hin zu Repräsentationsanalysen. In allen Fällen erreichte er Leistungen, die mit oder sogar über denen bestehender lokaler Tokenizer liegen. Besonders hervorzuheben ist die Möglichkeit, die Informationsmenge pro Token gezielt anzupassen, was die Designfähigkeit von Proteinen deutlich steigert.

Praktische Anwendungen zeigen, dass die erzeugten Embeddings bei CATH-Klassifikationen durch nichtlineare Probeverfahren überlegen sind. Darüber hinaus ermöglicht die Methode das Zero‑Shot‑Shrinking von Proteinen und die Affinitätsmaturation, was neue Perspektiven für die Proteinengineering-Forschung eröffnet.

Ähnliche Artikel