Suche Anmelden

Forschung arXiv – cs.AI

AgencyBench: 1M‑Token Benchmark für autonome Agenten in realen Szenarien

19.01.2026 05:00 • ≈1 Min. Lesezeit • Originalquelle

#AgencyBench #Autonome Agenten #Docker‑Sandbox #simulierter Nutzeragenten #Ressourceneffizienz #selbstkorrigierend #Open‑Source‑Modelle

Kernaussagen

Das nimmst du aus dem Beitrag mit

Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten.
Sie basiert auf 32 praxisnahen Szenarien, die durchschnittlich 90 Tool‑Aufrufe, rund 1 Million Tokens und mehrere Stunden Laufzeit erfordern.
Insgesamt umfasst die Benchmark 138 Aufgaben mit klar definierten Anfragen, Ergebnissen und Bewertungskriterien.

Die neue Benchmark „AgencyBench“ setzt neue Maßstäbe für die Bewertung autonomer Agenten. Sie basiert auf 32 praxisnahen Szenarien, die durchschnittlich 90 Tool‑Aufrufe, rund 1 Million Tokens und mehrere Stunden Laufzeit erfordern. Insgesamt umfasst die Benchmark 138 Aufgaben mit klar definierten Anfragen, Ergebnissen und Bewertungskriterien.

Um die Skalierbarkeit zu erhöhen, nutzt AgencyBench einen simulierten Nutzeragenten, der iteratives Feedback liefert, sowie einen Docker‑Sandbox, der visuelle und funktionale Rubriken automatisch auswertet. Diese automatisierte Pipeline ermöglicht eine effiziente und reproduzierbare Bewertung großer Modelle.

Die ersten Experimente zeigen deutlich, dass geschlossene Modelle die offenen Modelle übertreffen – 48,4 % gegenüber 32,1 %. Darüber hinaus lassen sich signifikante Unterschiede in Ressourceneffizienz, selbstkorrigierendem Verhalten und Tool‑Nutzungspotenzial feststellen. Proprietäre Modelle performen besonders gut in ihren nativen Ökosystemen, während Open‑Source‑Modelle in spezifischen Ausführungsrahmen Spitzenleistungen erzielen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

AgencyBench

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Autonome Agenten

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Docker‑Sandbox

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

AgencyBench systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu AgencyBench

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

AgencyBench

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

Agentische KI: Neue Architekturen, Taxonomie und Bewertung von LLM-Agenten

21.01.2026 05:00

arXiv – cs.LG

Kostenbewusstes kontrastives Routing für große Sprachmodelle

19.08.2025 05:00

VentureBeat – AI

AWS stärkt AgentCore: Automatisierte Logik für mehr Kontrolle

02.12.2025 05:00

arXiv – cs.AI

Neues Deep Reinforcement Learning Modell verbessert semantische Erkundung von Agenten

12.09.2025 05:00

arXiv – cs.AI

VLM-Agenten werden mit Q‑Funktion bei Inferenz sofort besser

02.02.2026 05:00

arXiv – cs.AI

FIRE‑Bench: Agenten testen Wiederentdeckung wissenschaftlicher Erkenntnisse

04.02.2026 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei AgencyBench, Autonome Agenten konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

AgencyBench

Autonome Agenten

Docker‑Sandbox

simulierter Nutzeragenten

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen