Neues Benchmark-Tool testet Lern-, Explorations- und Scheduling-Fähigkeiten von Agenten
Die rasante Weiterentwicklung multimodaler Large Language Models hat die Automatisierung von Arbeitsabläufen stark vorangetrieben. Doch bisherige Studien konzentrieren sich überwiegend auf statische Testumgebungen und v…