SCOPE: LLM-basierte Einmal-Unterrichtsstrategie für hierarchische Textplanung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die langfristige Planung in komplexen, textbasierten Umgebungen ist wegen offener Aktionsräume, mehrdeutiger Beobachtungen und spärlichem Feedback besonders schwierig. Neueste Untersuchungen zeigen, dass große Sprachmodelle (LLMs) reichhaltiges semantisches Wissen besitzen, das Agenten bei hochrangigem Denken und Planen unterstützen kann – sowohl in physischen als auch in rein textuellen Szenarien.

Aktuelle Ansätze greifen jedoch häufig stark auf wiederholte LLM-Abfragen während Training und Inferenz zurück. Das führt zu hohen Rechenkosten und erschwert die effiziente Bereitstellung. Zudem bleiben die LLM‑Parameter unverändert, sodass keine Anpassung an die spezifische Aufgabe möglich ist.

Mit SCOPE (Subgoal-COnditioned Pretraining for Efficient planning) wird dieses Problem adressiert. Das Verfahren nutzt LLM‑generierte Unterziele ausschließlich bei der Initialisierung, um ein leichtgewichtiges „Student“-Modell zu prätrainieren. Im Gegensatz zu früheren Methoden, die das LLM kontinuierlich nach Unterzielen fragen, werden die Unterziele direkt aus Beispieltrajektorien abgeleitet. Dadurch entfällt die Notwendigkeit wiederholter LLM‑Abfragen, was die Effizienz deutlich steigert, allerdings die Erklärbarkeit verringert und gelegentlich suboptimale Unterziele erzeugt.

In Experimenten auf der TextCraft‑Umgebung zeigte SCOPE, dass selbst nicht perfekt optimierte LLM‑Unterziele einen starken Ausgangspunkt für die hierarchische Zielzerlegung bieten. Das Ergebnis deutet darauf hin, dass ein einmaliger LLM‑Unterricht ausreichend sein kann, um leistungsfähige Planungsmodelle zu erzeugen, ohne die Kosten für kontinuierliche LLM‑Interaktionen.

Diese Erkenntnisse eröffnen einen vielversprechenden Weg, Sprachmodelle effizient in die Planung von Agenten einzubinden und damit die Entwicklung von autonomen Systemen in textbasierten und hybriden Umgebungen voranzutreiben.

Ähnliche Artikel