SDFP: Training‑freies Draft‑Modell für schnelle LLM‑Decodierung
Große Sprachmodelle (LLMs) bilden die Basis für interaktive Multimedia‑Anwendungen wie Untertitelung, Suche, Empfehlung und kreative Inhaltserstellung. Ihre autoregressive Decodierung verursacht jedoch erhebliche Latenzzeiten, die die Nutzererfahrung beeinträchtigen.