Forschung
Optimales Multi‑Draft‑Sampling: Convex‑Optimierung für LLMs
In einer neuen Studie wird gezeigt, wie die Latenz beim Autoregressive‑Decoding von großen Sprachmodellen (LLMs) drastisch gesenkt werden k…
arXiv – cs.LG