AIRS-Bench: 20 neue Aufgaben für autonome Forschungsagenten
Die neueste Veröffentlichung von Forschern auf arXiv (2602.06855v1) stellt AIRS‑Bench vor – ein umfassendes Benchmark‑Set aus 20 Aufgaben, das speziell für die Bewertung von KI‑Agenten im wissenschaftlichen Forschungsprozess entwickelt wurde. Die Aufgaben stammen aus aktuellen Machine‑Learning‑Papers und decken ein breites Spektrum ab, darunter Sprachmodellierung, Mathematik, Bioinformatik und Zeitreihenprognosen.