FIRE‑Bench: Agenten testen Wiederentdeckung wissenschaftlicher Erkenntnisse
Autonome Agenten, die auf großen Sprachmodellen (LLMs) basieren, versprechen die wissenschaftliche Forschung von Anfang bis Ende zu beschleunigen. Doch bislang fehlt ein rigoroses Verfahren, um ihre Fähigkeit zur verifizierbaren Entdeckung zu messen. Viele Benchmarks verlassen sich entweder auf LLM‑basierte Urteilsmechanismen oder nutzen isolierte Leistungskennzahlen, die nur grobe Indikatoren für echtes wissenschaftliches Verständnis liefern.