Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, weil die Gradientenvarianz explodiert. Um dem entgegenzuwirken, setzen Forscher ü…