AtomDisc: Tokenizer auf Atom‑Ebene steigert Leistung von molekularen LLMs
Die rasante Entwicklung großer Sprachmodelle (LLMs) beschleunigt die Entdeckung in der Molekularwissenschaft. Ein zentrales Problem bleibt jedoch die Anpassung molekularer Informationen an das tokenbasierte Format von LLMs. Während molekulare Graphen die atomare Konnektivität und lokale Topologie explizit darstellen, fehlt bislang eine feingranulare Tokenisierung der atomaren Umgebung, die entscheidend für die Vorhersage komplexer chemischer Eigenschaften ist.
Mit AtomDisc wird dieses Problem adressiert: Das neue Framework quantisiert atomare lokale Umgebungen in strukturbewusste Tokens, die direkt in den Tokenraum des LLM eingebettet werden. Durch diese Daten‑getriebene Tokenisierung kann das Modell chemisch bedeutende Strukturelemente erkennen und damit die Verbindung zwischen Struktur und Eigenschaften sichtbar machen.
Experimentelle Ergebnisse zeigen, dass AtomDisc die Leistung bei der Vorhersage von Moleküleigenschaften und bei der molekularen Generierung auf dem aktuellen Stand der Technik anhebt. Der integrierte, interpretierbare Induktionsbias eröffnet zudem neue Möglichkeiten für mechanistische Einsichten und komplexe chemische Entscheidungsprozesse, und legt damit den Grundstein für leistungsfähigere molekulare LLMs.