DAS beschleunigt RL-Training: Spekulatives Decoding nutzt Rollout-Verteilung
Reinforcement‑Learning‑Post‑Training ist heute unverzichtbar, um große Sprachmodelle (LLMs) zu verfeinern. Dabei wird die Effizienz zunehmend durch die Rollout‑Phase limitiert, in der lange Sequenzen tokenweise generiert werden. Ein wesentlicher Engpass liegt in der langen Schwanzverteilung der Rollout‑Längen: nur ein kleiner Anteil sehr langer Generationen beansprucht den Großteil der Rechenzeit.