Optimales Multi‑Draft‑Sampling: Convex‑Optimierung für LLMs
In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vorhersagen zu beeinträchtigen. Das Verfahren, bekannt als speculative sampling, nutzt ein günstiges Draft‑Modell, um Kandidatentoken vorzuschlagen, und prüft anschließend mit einer Verifikationskriterien, ob der Token akzeptiert oder neu generiert werden soll.