Dynamische Ausrichtung beschleunigt pretrained Drafters beim spekulativen Decoding
Spekulatives Decoding beschleunigt die Inferenz von Sprachmodellen, indem die Generierung in einen schnellen Entwurfs- und einen parallelen Verifikationsschritt aufgeteilt wird. Das größte Hindernis dabei ist das Misalignment zwischen Entwurfer und Verifikator, das die Akzeptanz von Tokens begrenzt und die Gesamteffektivität verringert.
Kleine, von Grund auf trainierte Entwurfsköpfe sind zwar sehr schnell, doch sie kämpfen, wenn die Verifikation die Latenz dominiert oder die Eingaben außerhalb des Trainingsbereichs liegen. Pretrained Drafters hingegen sind langsamer, verfügen aber über stärkere eigenständige Generierungsfähigkeiten, wodurch sie höhere Akzeptanzraten erzielen und besonders dann konkurrenzfähig sind, wenn die Entwurfslatenz im Vergleich zur Verifikation oder zur Kommunikationsüberhead vernachlässigbar ist.
In dieser Studie wird ein leichtgewichtiges, dynamisches Ausrichtungsmechanismus vorgestellt: ein Steering‑Vector, der aus den versteckten Zuständen des Verifiers berechnet und in den pretrained Drafter injiziert wird. Im Vergleich zu bestehenden Offline‑Alignment‑Methoden wie Distillation steigert dieser Ansatz die Anzahl akzeptierter Tokens um bis zu 35 % bei Standard‑Sampling und um 22 % bei Greedy‑Sampling, ohne dabei nennenswerte Rechenkosten zu verursachen.
Der vorgeschlagene Mechanismus lässt sich problemlos in bestehende Architekturen und vortrainierte Modelle integrieren, was eine schnelle und unkomplizierte Implementierung in aktuellen Systemen ermöglicht.