SPA-Cache: Effiziente Caching-Strategie für Diffusions-Sprachmodelle
Diffusions-Sprachmodelle (DLMs) bieten eine flexible Alternative zum autoregressiven Ansatz, doch ihre nicht-kausale Struktur verhindert die Nutzung herkömmlicher KV‑Caches. Das führt zu aufwändiger Neuberechnung der versteckten Zustände bei jedem Decodierungsschritt. Bestehende Caching‑Methoden reduzieren diesen Aufwand zwar, stoßen jedoch an Grenzen: sie verwenden kostenintensive token‑weise Heuristiken zur Update‑Erkennung und verteilen Budgets zu starr, ohne die unterschiedlichen Dynamiken der Zustände zu berücksichtigen.