ARMD: Modell kombiniert Effizienz von ARMs und Parallelität von Diffusionen
In der Welt der Sprachmodelle haben Masked Diffusion Models (MDMs) großes Interesse geweckt, doch sie hinken noch hinter den klassischen autoregressiven Modellen (ARMs) hinterher und benötigen mehr Trainingsschritte. Das neue Auto‑Regressive Masked Diffusion (ARMD) Modell löst dieses Problem, indem es die Trainingsgeschwindigkeit von ARMs mit der Parallelgenerierung von Diffusionen vereint.
Der Schlüssel liegt darin, den Masked‑Diffusion‑Prozess als blockweises kausales Modell zu betrachten. Dadurch entsteht eine strikt kausale, permutations‑äquivalente Architektur, die sämtliche bedingten Wahrscheinlichkeiten über mehrere Denoising‑Schritte in einem einzigen parallelen Vorwärtspass berechnet. Das ermöglicht ein effizientes, autoregressives Decodieren und ein progressives Permutations‑Training, bei dem das Modell sowohl die klassische linksläufige Reihenfolge als auch zufällige Token‑Anordnungen erlernt.
Darüber hinaus führt ARMD eine neuartige, gestufte Parallelgenerierungsstrategie ein, die die Inferenz beschleunigt, indem Tokens in parallelen Streams erzeugt werden, ohne die globale Kohärenz zu verlieren. Die experimentellen Ergebnisse zeigen, dass ARMD die Spitzenleistung bei Standard‑Language‑Modeling‑Benchmarks erreicht, etablierte Diffusion‑Baselines übertrifft und dabei deutlich weniger Trainingsschritte benötigt.
Mit ARMD wird ein neuer Maßstab für parallele Textgenerierung gesetzt und die Kluft zwischen paralleler und sequentieller Dekodierung effektiv geschlossen.