FlyBench: KI-Agenten testen die komplette Ontologie‑Kuration von Drosophila‑Datenbanken

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Ein brandneues Benchmark‑Set namens FlyBench wurde auf arXiv veröffentlicht, um die Leistungsfähigkeit von KI‑Agenten bei der vollständigen Ontologie‑Kuration wissenschaftlicher Literatur zu messen. Die Aufgabe ist anspruchsvoll: Ausgehend von einem einzelnen Gen‑Symbol müssen die Agenten ein umfangreiches Korpus von 16.898 Volltext‑Papers durchsuchen, die relevanten Informationen extrahieren und strukturierte Annotationen erzeugen, die Gene‑Ontology‑Terme, Expressionsmuster und historische Synonyme umfassen.

FlyBench basiert auf 7.397 von Experten kuratierten Annotationen, die sich über 100 Gene aus der renommierten FlyBase‑Datenbank verteilen. Damit bietet das Benchmark‑Set einen realistischen Testfall, der weit über die üblichen Teilaufgaben wie Named‑Entity‑Recognition oder Relation‑Extraction hinausgeht.

Zur Evaluierung wurden vier Baseline‑Architekturen getestet: ein Memorization‑Modell, ein festes Pipeline‑System, ein Single‑Agent‑Ansatz und ein Multi‑Agent‑Design. Die Ergebnisse zeigen deutlich, dass die Wahl der Architektur einen großen Einfluss hat. Multi‑Agent‑Modelle übertreffen die einfacheren Varianten, während das Skalieren der zugrunde liegenden Sprachmodelle nur noch begrenzte Verbesserungen bringt. Trotz dieser Fortschritte bleiben die Baselines weit von einer optimalen Leistung entfernt, was viel Raum für weitere Forschung lässt.

Eine interessante Erkenntnis ist, dass die Agenten vor allem Retrieval‑Techniken nutzen, um vorhandenes parametric Knowledge zu bestätigen, anstatt neue Erkenntnisse zu entdecken. FlyBench soll daher gezielt die Entwicklung von Retrieval‑fähigen KI‑Systemen vorantreiben und die wissenschaftliche Gemeinschaft dazu anregen, neue Ansätze für die automatisierte Ontologie‑Kuration zu erforschen.

Ähnliche Artikel