FIRE‑Bench: Agenten testen Wiederentdeckung wissenschaftlicher Erkenntnisse
Autonome Agenten, die auf großen Sprachmodellen (LLMs) basieren, versprechen die wissenschaftliche Forschung von Anfang bis Ende zu beschleunigen. Doch bislang fehlt ein rigoroses Verfahren, um ihre Fähigkeit zur verifi…