Forschung arXiv – cs.AI

JEPA-DNA: Genomische Modelle mit gemeinsamer Einbettung neu definiert

Genomische Foundation Models (GFMs) haben bisher vor allem Masked Language Modeling (MLM) oder Next Token Prediction (NTP) genutzt, um die Sprache des Lebens zu erlernen. Diese Ansätze sind hervorragend darin, lokale Ge…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Genomische Foundation Models (GFMs) haben bisher vor allem Masked Language Modeling (MLM) oder Next Token Prediction (NTP) genutzt, um die Sprache des Lebens zu erlernen.
  • Diese Ansätze sind hervorragend darin, lokale Genomsyntax und feine Motive zu erfassen, doch sie bleiben oft hinter dem globalen funktionalen Kontext zurück, was zu Dars…
  • Mit JEPA-DNA wird dieses Problem angegangen, indem die Joint-Embedding Predictive Architecture (JEPA) mit traditionellen generativen Zielen kombiniert wird.

Genomische Foundation Models (GFMs) haben bisher vor allem Masked Language Modeling (MLM) oder Next Token Prediction (NTP) genutzt, um die Sprache des Lebens zu erlernen. Diese Ansätze sind hervorragend darin, lokale Genomsyntax und feine Motive zu erfassen, doch sie bleiben oft hinter dem globalen funktionalen Kontext zurück, was zu Darstellungen führt, die die biologische Gesamtperspektive vernachlässigen.

Mit JEPA-DNA wird dieses Problem angegangen, indem die Joint-Embedding Predictive Architecture (JEPA) mit traditionellen generativen Zielen kombiniert wird. Das neue Pre‑Training-Framework führt eine latente Grounding‑Schicht ein, die die Wiederherstellung von Token mit einer Vorhersageaufgabe im latenten Raum verknüpft und einen CLS‑Token zur Überwachung nutzt. Dadurch wird das Modell gezwungen, die hochrangigen funktionalen Einbettungen maskierter Genomsegmente vorherzusagen, anstatt sich ausschließlich auf einzelne Nukleotide zu konzentrieren.

JEPA-DNA erweitert sowohl NTP als auch MLM und kann entweder als eigenständiges From‑Scratch‑Objective eingesetzt werden oder als kontinuierliche Pre‑Training‑Erweiterung für bereits bestehende GFMs dienen. Diese Flexibilität macht es zu einer vielseitigen Lösung für die Weiterentwicklung genomischer Modelle.

In einer Reihe von umfangreichen Genombenchmarks zeigte JEPA-DNA konsequent bessere Leistungen als reine generative Baselines – sowohl bei überwachten als auch bei Zero‑Shot‑Aufgaben. Durch die stärkere biologisch fundierte Repräsentation eröffnet JEPA-DNA einen skalierbaren Weg zu Foundation Models, die nicht nur das Genomalphabet, sondern auch die zugrunde liegende funktionale Logik der Sequenzen verstehen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.