AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien
Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die durchschnittlich 90 Tool‑Aufrufe, rund 1 Million Tokens und mehrere Stunden Laufzeit erfordern. Insgesamt umfasst die Benchmark 138 Aufgaben mit klar definierten Anfragen, Ergebnissen und Bewertungskriterien.