Optimales Multi‑Draft‑Sampling: Convex‑Optimierung für LLMs
In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden kann, ohne die Qualität der Vorhersagen zu beeinträchtigen. Das Verfahren, bekann…