FlyBench: KI-Agenten testen die komplette Ontologie‑Kuration von Drosophila‑Datenbanken
Ein brandneues Benchmark‑Set namens FlyBench wurde auf arXiv veröffentlicht, um die Leistungsfähigkeit von KI‑Agenten bei der vollständigen Ontologie‑Kuration wissenschaftlicher Literatur zu messen. Die Aufgabe ist ansp…