Reinforcement Learning beschleunigt spekulatives Sampling bei LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Latenz bei der Inferenz großer Sprachmodelle bleibt ein zentrales Problem für den Einsatz in der Praxis. Aktuelle spekulative Sampling‑Methoden wie EAGLE‑3 nutzen dafür baumbasierte Drafting‑Strategien, um mehrere mögliche Fortsetzungen gleichzeitig zu prüfen. Dabei bleiben die Hyperparameter, die die Baumstruktur steuern, jedoch statisch, was die Flexibilität und Effizienz in unterschiedlichen Kontexten einschränkt.

Mit dem neuen Ansatz Re‑SpS – Reinforcement Learning für Spekulatives Sampling – wird dieses Problem adressiert. Das System optimiert die Hyperparameter des Draft‑Baums in Echtzeit und lernt kontextabhängige Richtlinien, die die Generierungs­geschwindigkeit maximieren, indem sie die spekulative Aggressivität mit dem Rechenaufwand abwägen. Dabei nutzt Re‑SpS effiziente Zustandsdarstellungen aus den versteckten Zuständen des Zielmodells und führt mehrstufige Aktionspersistenz ein, um die Kontextmodellierung zu verbessern.

In Tests auf fünf unterschiedlichen Benchmarks übertrifft Re‑SpS die bisher beste Methode EAGLE‑3 konsequent. Die Geschwindigkeit des zugrunde liegenden Sprachmodells kann bis zu 5,45‑fach erhöht werden, während im Vergleich zu EAGLE‑3 ein Speed‑up von bis zu 1,12‑fach erreicht wird – und das ohne Qualitätsverlust der generierten Texte.

Ähnliche Artikel