Forschung
Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, w…
arXiv – cs.LG