AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die durchschnittlich 90 Tool‑Aufrufe, rund 1 Million Tokens und mehrere Stunden Laufzeit erfordern. Insgesamt umfasst die Benchmark 138 Aufgaben mit klar definierten Anfragen, Ergebnissen und Bewertungskriterien.

Um die Skalierbarkeit zu erhöhen, nutzt AgencyBench einen simulierten Nutzeragenten, der iteratives Feedback liefert, sowie einen Docker‑Sandbox, der visuelle und funktionale Rubriken automatisch auswertet. Diese automatisierte Pipeline ermöglicht eine effiziente und reproduzierbare Bewertung großer Modelle.

Die ersten Experimente zeigen deutlich, dass geschlossene Modelle die offenen Modelle übertreffen – 48,4 % gegenüber 32,1 %. Darüber hinaus lassen sich signifikante Unterschiede in Ressourceneffizienz, selbstkorrigierendem Verhalten und Tool‑Nutzungspotenzial feststellen. Proprietäre Modelle performen besonders gut in ihren nativen Ökosystemen, während Open‑Source‑Modelle in spezifischen Ausführungsrahmen Spitzenleistungen erzielen.

Ähnliche Artikel