TxAgent glänzt bei NeurIPS CURE-Bench: Fortschritt in therapeutischer KI
Die therapeutische Entscheidungsfindung im klinischen Alltag ist ein hochriskantes Feld, in dem KI‑Unterstützung mit komplexen Wechselwirkungen zwischen Patientendaten, Krankheitsprozessen und Arzneimitteln verknüpft ist. Aufgaben wie Medikamentenempfehlung, Behandlungsplanung und Nebenwirkungsprognose erfordern robuste, mehrstufige Logik, die auf verlässlichem biomedizinischem Wissen basiert.
TxAgent begegnet diesen Anforderungen mit einem iterativen Retrieval‑Augmented‑Generation‑Ansatz. Das System nutzt ein feinabgestimmtes Llama‑3.1‑8B-Modell, das dynamisch Funktionsaufrufe an eine einheitliche medizinische Tool‑Suite namens ToolUniverse generiert und ausführt. Durch die Integration von FDA‑Drug‑API, OpenTargets und Monarch‑Ressourcen hat TxAgent stets Zugriff auf aktuelle therapeutische Informationen.
Im Gegensatz zu generischen RAG‑Systemen stellen medizinische Anwendungen strenge Sicherheitsanforderungen an die Genauigkeit der Entscheidungsspur und der Tool‑Verwendung. Deshalb bewertet TxAgent token‑weise die Logik und die Reihenfolge der Tool‑Aufrufe als explizite Lernsignale. Diese Vorgehensweise gewährleistet, dass sowohl die Argumentationskette als auch die angewandten Ressourcen zuverlässig sind.
Im Rahmen der NeurIPS 2025 CURE‑Bench‑Challenge wurden therapeutische KI‑Systeme anhand von Metriken für Richtigkeit, Tool‑Nutzung und Argumentationsqualität verglichen. TxAgent zeigte, dass die Qualität der Tool‑Abruf‑Strategien einen entscheidenden Einfluss auf die Gesamtleistung hat. Durch gezielte Verbesserungen in der Tool‑Retrieval‑Logik erzielte das System signifikante Leistungssteigerungen und wurde mit einem Preis für herausragende Ergebnisse ausgezeichnet.