Dynamische Ausrichtung beschleunigt pretrained Drafters beim spekulativen Decoding
Spekulatives Decoding beschleunigt die Inferenz von Sprachmodellen, indem die Generierung in einen schnellen Entwurfs- und einen parallelen Verifikationsschritt aufgeteilt wird. Das größte Hindernis dabei ist das Misalignment zwischen Entwurfer und Verifikator, das die Akzeptanz von Tokens begrenzt und die Gesamteffektivität verringert.