Forschung
Neues Benchmark für Allzweck-Agenten: Erste Open General Agent Leaderboard
Forscher haben ein neues Benchmarking-Framework vorgestellt, das die Leistungsfähigkeit von Allzweck-Agenten systematisch bewertet. Ziel is…
arXiv – cs.AI