RxnNano: Kompakte LLMs für chemische Reaktionsvorhersage mit Curriculum
Die Vorhersage chemischer Reaktionen ist ein entscheidender Schritt, um die Entwicklung neuer Medikamente und die Planung von Synthesen zu beschleunigen. Trotz der Fortschritte datengetriebener Modelle stoßen aktuelle Ansätze häufig an ihre Grenzen, weil sie sich zu stark auf die Skalierung von Parametern und Datensätzen konzentrieren und dabei wesentliche chemische Intuitionen wie Reaktionslogik und atomare Topologie vernachlässigen.
Um diese Lücke zu schließen, präsentiert das neue Modell RxnNano, ein kompakter 0,5‑Billionen‑Parameter-LLM, das chemisches Verständnis über reine Größe stellt. Das System basiert auf drei Kerninnovationen, die gemeinsam eine tiefere und robustere Reaktionsvorhersage ermöglichen.
Erstens sorgt ein Latent Chemical Consistency-Ziel dafür, dass Reaktionen als Bewegungen auf einem kontinuierlichen chemischen Manifold modelliert werden. Dadurch bleiben die Vorhersagen reversibel und physikalisch plausibel. Zweitens führt ein Hierarchical Cognitive Curriculum das Modell schrittweise durch Lernphasen – von der Syntaxbeherrschung bis zur semantischen Analyse – und baut dabei eine solide chemische Intuition auf. Drittens garantiert die Atom-Map Permutation Invariance (AMPI), dass das Modell invariant gegenüber atomaren Permutationen lernt und damit die relationalen Topologien zuverlässig erfasst.
Zusätzlich nutzt RxnNano strukturierte planbasierte Reasoning-Methoden, um die Leistung weiter zu steigern. In rigorosen Benchmark-Tests übertrifft das kompakte Modell LLMs, die zehnmal größer sind (über 7 B Parameter), und sämtliche bisherigen Domänen-Baselines. Die Top‑1‑Genauigkeit verbessert sich um beeindruckende 23,5 % – und das ohne Testzeit-Augmentation.
Das Modell und die zugehörigen Ressourcen sind frei verfügbar unter https://github.com/rlisml/RxnNano.