Forschung
AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien
Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die dur…
arXiv – cs.AI