Neue LK-Verluste steigern Akzeptanzrate bei spekulativem Decoding von LLMs
Spekulatives Decoding beschleunigt die Inferenz von autoregressiven Sprachmodellen, indem ein leichtes Draft-Modell zunächst Kandidatentoken vorschlägt, die anschließend parallel vom Zielmodell verifiziert werden. Der e…
- Spekulatives Decoding beschleunigt die Inferenz von autoregressiven Sprachmodellen, indem ein leichtes Draft-Modell zunächst Kandidatentoken vorschlägt, die anschließend…
- Der erzielte Geschwindigkeitsgewinn hängt stark von der Akzeptanzrate ab – dem Anteil der vorgeschlagenen Tokens, die vom Zielmodell akzeptiert werden.
- Traditionell wird das Draft-Modell mit der Minimierung der Kullback–Leibler‑Divergenz (KL) trainiert, ein Proxy‑Ziel, das zwar denselben globalen Optimum wie die Akzepta…
Spekulatives Decoding beschleunigt die Inferenz von autoregressiven Sprachmodellen, indem ein leichtes Draft-Modell zunächst Kandidatentoken vorschlägt, die anschließend parallel vom Zielmodell verifiziert werden. Der erzielte Geschwindigkeitsgewinn hängt stark von der Akzeptanzrate ab – dem Anteil der vorgeschlagenen Tokens, die vom Zielmodell akzeptiert werden.
Traditionell wird das Draft-Modell mit der Minimierung der Kullback–Leibler‑Divergenz (KL) trainiert, ein Proxy‑Ziel, das zwar denselben globalen Optimum wie die Akzeptanzrate hat, aber bei kleinen Draft-Modellen oft zu suboptimalen Lösungen führt. In solchen Fällen garantiert ein geringes KL‑Verhältnis nicht, dass die Akzeptanzrate maximiert wird.
Um dieses Problem zu lösen, stellen die Autoren die LK‑Verluste vor – spezielle Trainingsziele, die die Akzeptanzrate direkt ansprechen. In umfangreichen Experimenten mit vier Draft-Architekturen und sechs Zielmodellen (8 B bis 685 B Parameter) zeigen die LK‑Verluste konsistente Verbesserungen der Akzeptanzmetriken gegenüber dem klassischen KL‑Training. Die Optimierung wirkt sich positiv auf allgemeine, Programmier- und Mathematikdomänen aus und erzielt bis zu 8 – 10 % höhere durchschnittliche Akzeptanzlängen.
Die LK‑Verluste sind leicht zu implementieren, verursachen keine zusätzlichen Rechenkosten und lassen sich nahtlos in bestehende Trainingsframeworks für Spekulationsmodelle integrieren. Sie stellen damit eine attraktive Alternative zu den bisherigen Draft‑Trainingszielen dar.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.