Optimales Multi‑Draft‑Sampling: Convex‑Optimierung für LLMs
In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vorhersagen zu beeinträchtigen. Das Verfahren, bekann…
- In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vor…
- Das Verfahren, bekannt als speculative sampling, nutzt ein günstiges Draft‑Modell, um Kandidatentoken vorzuschlagen, und prüft anschließend mit einer Verifikationskriter…
- Die jüngsten Fortschritte haben das Konzept auf mehrere Draft‑Tokens erweitert: an jedem Schritt werden n Tokens erzeugt und die Verifikation basiert auf deren gemeinsam…
In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vorhersagen zu beeinträchtigen. Das Verfahren, bekannt als speculative sampling, nutzt ein günstiges Draft‑Modell, um Kandidatentoken vorzuschlagen, und prüft anschließend mit einer Verifikationskriterien, ob der Token akzeptiert oder neu generiert werden soll.
Die jüngsten Fortschritte haben das Konzept auf mehrere Draft‑Tokens erweitert: an jedem Schritt werden n Tokens erzeugt und die Verifikation basiert auf deren gemeinsamer Verteilung. Das optimale Transportkriterium (OT) maximiert die Wahrscheinlichkeit, mindestens einen dieser Tokens zu akzeptieren. Allerdings ist die Berechnung von OT als lineares Programm (OTLP) mit über V^n Variablen – V ist die Vokabulargröße – praktisch unmöglich.
Die Autoren zeigen, dass bisherige theoretische Ansätze, die OTLP als Importance‑Sampling oder Subset‑Selection formulierten, tatsächlich äquivalent zu einer exponentiell großen, aber gelockerten Version des OTLP sind und damit weiterhin unlösbar bleiben. Durch eine Rückentwicklung des Subset‑Selection‑Ansatzes gelingt es ihnen, OTLP als Max‑Flow‑Problem zu formulieren. Mit einer innovativen Anwendung der Polymatroid‑Theorie wird das exponentielle Problem auf ein konvexes Optimierungsproblem mit höchstens V Variablen reduziert.
Damit entsteht ein praktischer Algorithmus für optimales n‑Draft‑Speculative‑Sampling, bei dem die n Tokens unabhängig und identisch aus einem einzigen Draft‑Modell gezogen werden. Der Ansatz lässt sich auf beliebige Genauigkeitsstufen einstellen und liefert signifikante Verbesserungen bei Akzeptanzraten und Laufzeiten. Die Ergebnisse markieren den ersten Schritt zu effizienten Multi‑Draft‑Sampling‑Algorithmen für moderne LLMs.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.