Aufdeckung des Attention‑Floating‑Mechanismus in Masked Diffusion Modellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Maskierte Diffusionsmodelle (MDMs) nutzen bidirektionale Aufmerksamkeitsmechanismen und einen Rauschreduktionsprozess, um die Leistungslücke zu autoregressiven Modellen (ARMs) zu schließen. Trotz ihrer Fortschritte blieb die interne Funktionsweise der Aufmerksamkeitsverteilung lange unklar. In der neuen Studie wird das Phänomen des „Attention Floating“ aufgedeckt: Im Gegensatz zu ARMs, bei denen die Aufmerksamkeit auf feste Zielpunkte konvergiert, zeigen MDMs dynamische, verstreute Aufmerksamkeitsanker, die sich über die Denoising‑Schritte und Schichten hinweg verschieben.

Die Analyse legt zudem einen zweigeteilten Mechanismus offen. In den flachen Schichten setzen die Modelle fließende Tokens ein, um ein globales strukturelles Gerüst aufzubauen, während tiefere Schichten vermehrt auf semantische Inhalte fokussieren. Dieses differenzierte Verhalten erklärt die bemerkenswerten In‑Context‑Learning‑Fähigkeiten von MDMs und führt zu einer Verdoppelung der Leistung gegenüber ARMs bei wissensintensiven Aufgaben.

Alle Code‑ und Datensätze stehen auf GitHub zur Verfügung: https://github.com/NEUIR/Attention-Floating.

Ähnliche Artikel