Planner‑Centric Framework überwindet ReAct: LLMs meistern komplexe Tool‑Workflows
Ein neues Forschungsprojekt aus dem Bereich der großen Sprachmodelle (LLMs) präsentiert ein innovatives Planner‑Centric Framework, das die bekannten Schwächen des ReAct‑Ansatzes überwindet. Während ReAct auf schrittweise Entscheidungen setzt und dadurch häufig in lokalen Optimierungsfallen stecken bleibt, setzt das neue Modell auf eine globale Directed‑Acyclic‑Graph‑Planung (DAG). Dadurch können komplexe Anfragen effizienter analysiert und ausgeführt werden.
Im Kern steht ein Planner-Modell, das die gesamte Aufgabenstruktur in einem DAG abbildet und damit die optimale Reihenfolge der Tool‑Nutzung bestimmt. Ergänzt wird das System durch die umfangreiche Benchmark‑Datenbank ComplexTool‑Plan, die speziell komplexe Mehr‑Tool‑Kompositionen und Koordinationen testet. Damit erhalten Entwickler ein realistisches Testfeld, um die Leistungsfähigkeit von LLMs in anspruchsvollen Szenarien zu prüfen.
Zur Verbesserung der Tool‑Auswahl und der globalen Planungsfähigkeit wurde ein zweistufiges Trainingsverfahren entwickelt. Zunächst erfolgt ein Supervised Fine‑Tuning (SFT), gefolgt von Group Relative Policy Optimization (GRPO). Dieses Vorgehen stärkt die Fähigkeit des Planners, präzise Entscheidungen zu treffen und die gesamte DAG‑Struktur zu berücksichtigen.
In Kombination mit einem leistungsfähigen Executor erzielt das neue Framework bislang die besten Ergebnisse auf dem StableToolBench Benchmark für komplexe Nutzeranfragen. Die Ergebnisse zeigen nicht nur eine höhere Genauigkeit bei der Tool‑Auswahl, sondern auch eine robuste Handhabung von mehrschichtigen Tool‑Workflows.
Das Planner‑Centric Framework markiert damit einen bedeutenden Fortschritt in der KI‑gestützten Tool‑Koordination und eröffnet neue Möglichkeiten für die Entwicklung von LLM‑basierten Anwendungen, die anspruchsvolle Aufgaben zuverlässig lösen können.