Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher üblicherweise ein Baseline‑Modell für die Vorteil‑Berechnung ein. Traditionelle Wertmodelle sind jedoch schwer zu optimieren, und herkömmliche gruppenbasierte Baselines berücksichtigen die Heterogenität von Token‑Sequenzen nicht.