Forschung
DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen
Die Bewertung von KI-Agenten hat sich von kurzfristigen, schrittweisen Aufgaben hin zu langfristigen Szenarien verschoben. Dennoch konzentr…
arXiv – cs.AI