Effizientes Benchmarking von KI-Agenten: Weniger Tests, gleiche Rangfolge
Eine neue Studie von Forschern auf arXiv zeigt, dass die Bewertung von KI-Agenten deutlich effizienter gestaltet werden kann, ohne dabei die Rangfolge der Agenten zu verfälschen. Statt hunderte von Aufgaben auszuführen…