Aufdeckung des Attention‑Floating‑Mechanismus in Masked Diffusion Modellen
Maskierte Diffusionsmodelle (MDMs) nutzen bidirektionale Aufmerksamkeitsmechanismen und einen Rauschreduktionsprozess, um die Leistungslücke zu autoregressiven Modellen (ARMs) zu schließen. Trotz ihrer Fortschritte blie…