Hierarchisches Spekulatives Decoding steigert Effizienz um 12 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Methode namens Hierarchisches Spekulatives Decoding (HSD) löst ein langjähriges Problem bei der Beschleunigung von Sprachmodellen: die Verifikation von Vorhersagen. Durch die Überprüfung ganzer Sequenzen statt einzelner Tokens erhöht HSD die Anzahl der akzeptierten Tokens deutlich, ohne die Verteilung der Ergebnisse zu verfälschen.

Traditionelle Ansätze stießen bei der gleichzeitigen Berücksichtigung mehrerer Token auf die sogenannte „joint intractability“ – ein mathematisches Hindernis, das die Effizienz stark einschränkt. HSD überwindet dieses Problem, indem es die überschüssige und fehlende Wahrscheinlichkeitsmasse über die verfügbaren Zweige hinweg ausgleicht. Das Ergebnis ist ein provables, verlustfreies Verifikationsverfahren, das die erwartete Anzahl akzeptierter Tokens erheblich steigert.

Groß angelegte Experimente zeigen, dass HSD in einer Vielzahl von Modellen und Benchmarks konsistente Verbesserungen der Akzeptanzraten liefert. Darüber hinaus ist die Methode leicht verständlich und lässt sich problemlos in bestehende spekulative Decoding‑Frameworks integrieren, was ihre Anwendbarkeit in der Praxis erhöht.

Ein besonders auffälliger Erfolg ist die Integration von HSD in das Modell EAGLE‑3, wo ein Leistungszuwachs von über 12 % erzielt wurde. Damit setzt HSD neue Maßstäbe für die Decoding‑Effizienz, ohne die Genauigkeit der Modellverteilung zu beeinträchtigen. Der Quellcode ist öffentlich auf GitHub verfügbar: Hierarchisches Spekulatives Decoding.

Ähnliche Artikel