LiveAgentBench: 104 reale Aufgaben testen KI-Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem neuen Benchmark LiveAgentBench werden KI-Agenten unter realen Bedingungen geprüft. Die Plattform umfasst 104 Szenarien, die aus öffentlich zugänglichen Fragen aus sozialen Medien und Produktanfragen stammen. Dadurch spiegelt sie die tatsächlichen Bedürfnisse von Nutzern wider und überwindet die Beschränkungen bisheriger Tests.

Im Mittelpunkt steht die Social Perception-Driven Data Generation (SPDG)-Methode. SPDG sorgt dafür, dass jede Aufgabe die richtige Komplexität besitzt, die Relevanz für echte Nutzer garantiert und die Ergebnisse überprüfbar sind. Durch diesen Ansatz kann LiveAgentBench kontinuierlich mit neuen Fragen aus der Praxis erweitert werden.

Die Benchmark wurde mit einer Vielzahl von Modellen, Frameworks und kommerziellen Produkten getestet. Die Ergebnisse zeigen, wie gut die Systeme in der Praxis funktionieren und wo noch Verbesserungsbedarf besteht. Insgesamt umfasst LiveAgentBench 374 Aufgaben, davon 125 zur Validierung und 249 zum Testen.

LiveAgentBench bietet damit eine robuste Grundlage, um die Leistungsfähigkeit von KI-Agenten in realen Anwendungsszenarien zu messen und weiterzuentwickeln.