Optimales Multi‑Draft‑Sampling: Convex‑Optimierung für LLMs

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vorhersagen zu beeinträchtigen. Das Verfahren, bekannt als speculative sampling, nutzt ein günstiges Draft‑Modell, um Kandidatentoken vorzuschlagen, und prüft anschließend mit einer Verifikationskriterien, ob der Token akzeptiert oder neu generiert werden soll.

Die jüngsten Fortschritte haben das Konzept auf mehrere Draft‑Tokens erweitert: an jedem Schritt werden n Tokens erzeugt und die Verifikation basiert auf deren gemeinsamer Verteilung. Das optimale Transportkriterium (OT) maximiert die Wahrscheinlichkeit, mindestens einen dieser Tokens zu akzeptieren. Allerdings ist die Berechnung von OT als lineares Programm (OTLP) mit über V^n Variablen – V ist die Vokabulargröße – praktisch unmöglich.

Die Autoren zeigen, dass bisherige theoretische Ansätze, die OTLP als Importance‑Sampling oder Subset‑Selection formulierten, tatsächlich äquivalent zu einer exponentiell großen, aber gelockerten Version des OTLP sind und damit weiterhin unlösbar bleiben. Durch eine Rückentwicklung des Subset‑Selection‑Ansatzes gelingt es ihnen, OTLP als Max‑Flow‑Problem zu formulieren. Mit einer innovativen Anwendung der Polymatroid‑Theorie wird das exponentielle Problem auf ein konvexes Optimierungsproblem mit höchstens V Variablen reduziert.

Damit entsteht ein praktischer Algorithmus für optimales n‑Draft‑Speculative‑Sampling, bei dem die n Tokens unabhängig und identisch aus einem einzigen Draft‑Modell gezogen werden. Der Ansatz lässt sich auf beliebige Genauigkeitsstufen einstellen und liefert signifikante Verbesserungen bei Akzeptanzraten und Laufzeiten. Die Ergebnisse markieren den ersten Schritt zu effizienten Multi‑Draft‑Sampling‑Algorithmen für moderne LLMs.

Ähnliche Artikel