Von Bits zu Runden: Parallel-Decodierung mit Exploration für Diffusionsmodelle
Diffusions-Sprachmodelle (DLMs) haben sich als starke Alternative zu autoregressiven Modellen etabliert. Sie liefern vergleichbare Genauigkeit, aber dank paralleler Decodierung viel schnellere Inferenz.
Allerdings stoßen herkömmliche DLM-Strategien, die sich ausschließlich auf hochsichere Tokens verlassen, an einen fundamentalen Informationsengpass. Diese Tokens tragen kaum neue Information, sodass jeder Decodierungsschritt nur wenig Fortschritt bringt.
Wissenschaftler haben sowohl theoretisch als auch empirisch gezeigt, dass die Priorisierung von hochwahrscheinlichen Tokens ineffizient ist. Sie beweisen ein „Bits‑zu‑Runden“-Prinzip: Die benötigte Anzahl an Decodierungsrunden wächst linear mit der Gesamtinformation des Samples und ist umgekehrt proportional zum pro‑Runde‑Informationsbudget.
Um diesen Engpass zu überwinden, stellen sie die training‑freie Methode Explore‑Then‑Exploit (ETE) vor. ETE kombiniert Cross‑Block‑Decodierung mit gezielter Erkundung von hochunsicheren Tokens, um die bedingte Verteilung neu zu formen und Kaskaden von sicheren Vorhersagen auszulösen.
Experimentelle Ergebnisse bestätigen die theoretischen Grenzen und zeigen, dass ETE die Anzahl der benötigten Decodierungsrunden deutlich reduziert – ohne die Qualität der generierten Texte zu beeinträchtigen.