LLM-gestützte Planung mit Subgoal-Graphen verbessert Open-World RL

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird gezeigt, wie große Sprachmodelle (LLMs) die Planung in Reinforcement-Learning-Umgebungen deutlich verbessern können. Der Ansatz nutzt die Fähigkeit von LLMs, komplexe Aufgaben in Teilziele zu zerlegen, und kombiniert sie mit einem speziell entwickelten Subgoal-Graphen, der die Umgebungsspezifika berücksichtigt.

Der Hauptkritikpunkt an bisherigen LLM-basierten Planern ist die Diskrepanz zwischen abstrakten Plänen und umsetzbaren Aktionen. Oft erzeugen die Modelle semantisch plausible, aber in der Praxis unpassende Teilziele. Außerdem fehlt eine klare Trennung zwischen Generierung, Selbstkritik und Verfeinerung, was zu übermäßig selbstsicheren, aber fehlerhaften Plänen führt.

Die vorgeschlagene Lösung, Subgoal Graph-Augmented Actor-Critic-Refiner (SGA-ACR), integriert einen umgebungsspezifischen Subgoal-Graphen und strukturiertes Entitätswissen in einen mehrstufigen Planungsprozess. Dabei werden die von LLMs erzeugten Teilziele zunächst kritisch bewertet und anschließend verfeinert, bevor sie in die eigentliche Aktionsausführung übergehen. Ein Subgoal-Tracker überwacht den Fortschritt, liefert zusätzliche Belohnungen und aktualisiert den Graphen dynamisch, um die Übereinstimmung zwischen Plan und Handlung zu sichern.

Experimentelle Tests in 22 unterschiedlichen Aufgaben des Open-World-Spiels „Crafter“ zeigen, dass der neue Ansatz die Ausführbarkeit und Zuverlässigkeit der generierten Pläne deutlich steigert. Damit demonstriert die Arbeit einen vielversprechenden Weg, die Leistungsfähigkeit von LLMs im Bereich des Open-World-Reinforcement-Learnings nachhaltig zu erhöhen.

Ähnliche Artikel