COVER: Schnellere Diffusion mit kontextbewusster Verifikation
Die Parallelisierung von Diffusionsmodellen kann die Inferenzgeschwindigkeit erheblich steigern, indem mehrere Tokens gleichzeitig entschlüsselt werden. In der Praxis führt diese aggressive Parallelität jedoch häufig zu Qualitätsverlusten. Revocable Decoding versucht, das Problem zu lösen, indem frühere Tokens erneut überprüft werden. Dabei treten jedoch sogenannte Flip‑Flop‑Oszillationen auf: Tokens werden wieder maskiert und später unverändert zurückgesetzt, was die Effizienz stark beeinträchtigt.