SokoBench: Bewertung der Langzeitplanung und des Denkens großer Sprachmodelle
Die neuesten Fortschritte in großen Sprachmodellen (Large Language Models, LLMs) haben gezeigt, dass sie komplexe Denkaufgaben meistern können. Doch ihre Fähigkeit, langfristige Planungen durchzuführen, blieb bislang wenig erforscht. Mit dem neuen Benchmark SokoBench wird dieses Thema endlich systematisch untersucht.
Der Test basiert auf dem klassischen Sokoban‑Puzzle, das bewusst vereinfacht wurde, um die Langzeitplanung von der Erhaltung des Zustands zu trennen. Auf diese Weise lässt sich klar erkennen, wie gut ein Modell in der Lage ist, über viele Schritte hinweg zu planen, ohne dabei von der aktuellen Spielsituation abgelenkt zu werden.
Die Ergebnisse sind eindeutig: Sobald mehr als 25 Züge nötig sind, um die Lösung zu erreichen, verschlechtert sich die Planungsleistung der Modelle deutlich. Dies deutet auf eine fundamentale Begrenzung der Vorwärtsplanungsfähigkeit hin, die nicht allein durch größere Modelle oder mehr Rechenleistung überwunden werden kann.
Interessanterweise konnten die Autoren die Leistung der Modelle leicht steigern, indem sie ihnen Werkzeuge zum Parsen, Validieren und Lösen von Planning Domain Definition Language (PDDL) bereitstellten. Diese modesten Verbesserungen zeigen, dass die Architektur der Modelle selbst Einschränkungen aufweist, die nicht einfach durch Testzeit‑Skalierung behoben werden können.