AIRS-Bench: 20 neue Aufgaben für autonome Forschungsagenten
Die neueste Veröffentlichung von Forschern auf arXiv (2602.06855v1) stellt AIRS‑Bench vor – ein umfassendes Benchmark‑Set aus 20 Aufgaben, das speziell für die Bewertung von KI‑Agenten im wissenschaftlichen Forschungspr…