KI-gestützte Langkette: Neues Modell löst komplexe biomolekulare Rätsel
Die Analyse von Biomolekülen erfordert oft mehrere logische Schritte, die über Wechselwirkungen, Signalwege und Stoffwechselprozesse hinweggehen. Obwohl große Sprachmodelle (LLMs) in vielen Bereichen Fortschritte machen, stoßen sie bei biologischen Fragestellungen an ihre Grenzen: ihre Antworten enthalten häufig logische Fehler und fehlen die notwendige Verankerung in fachlichem Wissen.
Um diese Schwächen zu überwinden, stellt die neue Studie einen Knowledge‑Augmented Long‑CoT‑Reasoning‑Ansatz vor. Dabei werden LLMs mit wissensgraphbasierten Mehr‑Sprung‑Raisonsketten kombiniert. Der Graph wird gezielt durch Traversierung und gezieltes Abschneiden von Knoten durchsucht, um mechanistische Ketten zu erzeugen. Diese Ketten fließen anschließend in ein überwacht‑trainiertes Fine‑Tuning ein, das die Faktenbasis stärkt, und werden anschließend mit Reinforcement‑Learning verfeinert, um die Zuverlässigkeit und Konsistenz der Argumentation zu erhöhen.
Zur Bewertung des Ansatzes wurde PrimeKGQA – ein umfangreiches Biomolekular‑Frage‑Antwort‑Benchmark – eingeführt, das tiefgreifende, mehrstufige Reasoning‑Ketten abdeckt. Auf diesem Benchmark sowie auf bestehenden Datensätzen zeigen die Experimente, dass das neue Modell bei zunehmender Rechenkomplexität deutlich besser abschneidet als größere, proprietäre Modelle und damit den aktuellen Stand bei Multi‑Hop‑Aufgaben übertrifft.