Reinforcement Learning verbessert Planung von LLM-Agenten ohne verifizierbare Daten
Die Leistungsfähigkeit von Large‑Language‑Model‑Agenten hängt vor allem von zwei Kernfähigkeiten ab: der Planung von Aktionen und der Zusammenfassung von Antworten. Während die Planung das entscheidende Element ist, werden die beiden Fähigkeiten bislang meist gleichzeitig in einem end‑to‑end‑Training optimiert. Dieses Vorgehen führt zu einer unausgewogenen Verteilung der Optimierungsziele und erschwert die Nutzung von verifizierbaren Daten, was die Weiterentwicklung der Planungsfunktion behindert.