DeepPlanning: Benchmark für Agentenplanung mit überprüfbaren Grenzen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Bewertung von KI-Agenten hat sich von kurzfristigen, schrittweisen Aufgaben hin zu langfristigen Szenarien verschoben. Dennoch konzentrieren sich die meisten bestehenden Benchmarks noch immer auf lokale Entscheidungen, während echte Planung globale Optimierungsprobleme mit Zeit- und Budgetbeschränkungen erfordert.

Um diese Lücke zu schließen, wurde DeepPlanning als neues Benchmark entwickelt. Es umfasst anspruchsvolle Aufgaben wie mehrtägige Reiseplanung und den Einkauf mehrerer Produkte, die proaktive Informationsbeschaffung, lokale begrenzte Entscheidungsfindung und globale Optimierung unter verifizierbaren Beschränkungen verlangen.

Die ersten Tests zeigen, dass selbst die fortschrittlichsten agentenfähigen LLMs Schwierigkeiten haben, diese komplexen Aufgaben zu bewältigen. Dies unterstreicht die Bedeutung zuverlässiger expliziter Denkprozesse und der parallelen Nutzung von Werkzeugen, um bessere Effizienz‑Wirksamkeitsverhältnisse zu erzielen.

Eine detaillierte Fehleranalyse liefert wertvolle Hinweise auf vielversprechende Verbesserungsrichtungen für agentenfähige LLMs über lange Planungszeiträume hinweg.

Der zugehörige Code und die Daten sind Open Source, um die weitere Forschung in diesem wichtigen Bereich zu fördern.

Ähnliche Artikel