OnlineSpec: Spekulative Dekodierung trifft Online‑Lernen – 24 % schnellere Modelle
Spekulatives Dekodieren hat sich als beliebtes Verfahren etabliert, um die Inferenz großer Sprachmodelle zu beschleunigen. Dabei erzeugt ein leichtgewichtiges Draft‑Modell schnell Kandidatentoken, die anschließend von e…