RADAR beschleunigt LLM‑Inferenz dank RL‑basierter dynamischer Entwurfsbäume
Die Ausführung moderner Large Language Models (LLMs) ist bislang teuer und langsam. Eine vielversprechende Lösung ist das sogenannte speculative sampling, bei dem ein „Draft“-Modell Kandidatentoken erzeugt. Allerdings i…
- Die Ausführung moderner Large Language Models (LLMs) ist bislang teuer und langsam.
- Eine vielversprechende Lösung ist das sogenannte speculative sampling, bei dem ein „Draft“-Modell Kandidatentoken erzeugt.
- Allerdings ist die Anzahl der Aufrufe dieses Draft‑Modells ein festgelegter Hyperparameter, der wenig Flexibilität bietet.
Die Ausführung moderner Large Language Models (LLMs) ist bislang teuer und langsam. Eine vielversprechende Lösung ist das sogenannte speculative sampling, bei dem ein „Draft“-Modell Kandidatentoken erzeugt. Allerdings ist die Anzahl der Aufrufe dieses Draft‑Modells ein festgelegter Hyperparameter, der wenig Flexibilität bietet.
Mit dem neuen Ansatz RADAR wird dieses Problem gelöst. RADAR formuliert die Erzeugung von Draft‑Bäumen als einen Markov‑Entscheidungsprozess (MDP) und nutzt Offline‑Reinforcement‑Learning, um ein Vorhersagemodell zu trainieren. Dieses Modell trifft in Echtzeit Entscheidungen darüber, wann das Draft‑Modell aufgerufen wird, wodurch unnötige Berechnungen vermieden und die Inferenzgeschwindigkeit deutlich erhöht wird.
In Tests mit drei unterschiedlichen LLMs und vier Aufgaben erzielte RADAR eine Beschleunigung von 3,17‑ bis 4,82‑fach im Vergleich zum herkömmlichen autoregressiven Decodierungsverfahren. Der komplette Code ist frei verfügbar unter https://github.com/minaduki-sora/RADAR.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.