DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen
Die Bewertung von KI-Agenten hat sich von kurzfristigen, schrittweisen Aufgaben hin zu langfristigen Szenarien verschoben. Dennoch konzentrieren sich die meisten bestehenden Benchmarks noch immer auf lokale Entscheidungen, während echte Planung globale Optimierungsprobleme mit Zeit- und Budgetbeschränkungen erfordert.