RADAR beschleunigt LLM‑Inferenz dank RL‑basierter dynamischer Entwurfsbäume
Die Ausführung moderner Large Language Models (LLMs) ist bislang teuer und langsam. Eine vielversprechende Lösung ist das sogenannte speculative sampling, bei dem ein „Draft“-Modell Kandidatentoken erzeugt. Allerdings i…