Turn-PPO: Neue Turn-Level-Strategie verbessert Multi-Turn RL in LLM-Agenten
Reinforcement Learning (RL) erlebt ein starkes Comeback als effektiver Ansatz zur Schulung interaktiver LLM-Agenten in realen Umgebungen. Dabei hat sich gezeigt, dass die weit verbreitete Group Relative Policy Optimizat…