DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen
Die Bewertung von KI-Agenten hat sich von kurzfristigen, schrittweisen Aufgaben hin zu langfristigen Szenarien verschoben. Dennoch konzentrieren sich die meisten bestehenden Benchmarks noch immer auf lokale Entscheidung…