DAS beschleunigt RL-Training: Spekulatives Decoding nutzt Rollout-Verteilung
Reinforcement‑Learning‑Post‑Training ist heute unverzichtbar, um große Sprachmodelle (LLMs) zu verfeinern. Dabei wird die Effizienz zunehmend durch die Rollout‑Phase limitiert, in der lange Sequenzen tokenweise generier…