AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien
Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die durchschnittlich 90 Tool‑Aufrufe, rund 1 Million Tokens und mehrere Stunden Laufzei…