Turn-PPO: Neue Turn-Level-Strategie verbessert Multi-Turn RL in LLM-Agenten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Reinforcement Learning (RL) erlebt ein starkes Comeback als effektiver Ansatz zur Schulung interaktiver LLM-Agenten in realen Umgebungen. Dabei hat sich gezeigt, dass die weit verbreitete Group Relative Policy Optimization (GRPO) bei Multi-Turn-Aufgaben, insbesondere bei langen Entscheidungswegen, erhebliche Schwächen aufweist.

Um diese Einschränkungen zu überwinden, haben Forscher alternative Advantage‑Estimation‑Methoden untersucht und dabei Proximal Policy Optimization (PPO) als stabilere und leistungsfähigere Alternative identifiziert. Durch die Einführung von turn‑PPO, einer Variante, die auf einer Turn‑Level-MDP statt der üblichen Token‑Level-MDP basiert, konnten sie die Effizienz von RL in mehrstufigen Szenarien deutlich steigern.

Die Experimente auf den Datensätzen WebShop und Sokoban belegen die Wirksamkeit von turn‑PPO – sowohl bei Aufgaben mit als auch ohne lange Rechenkomponenten. Diese Fortschritte markieren einen wichtigen Schritt zur Entwicklung agentischer LLMs, die komplexe, mehrstufige Interaktionen zuverlässig bewältigen können.

Ähnliche Artikel