Selbstaufmerksamkeit als Verteilungssprojektion: Einheitliche Transformer‑Analyse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung (2511.13780v1) liefert eine mathematische Interpretation der Selbstaufmerksamkeit, die sie mit Prinzipien der distributionalen Semantik verbindet. Die Autoren zeigen, dass die Selbstaufmerksamkeit aus der Projektion von Korpus‑Weit‑Ko‑Vorkommensstatistiken in den Kontext einer Sequenz entsteht.

Der Ansatz beginnt mit der Ko‑Vorkommensmatrix, die die Grundlage für GloVe‑Einbettungen bildet. Durch die Projektion dieser Matrix in den lokalen Kontext wird die Wirkung von Nachbarn auf ein Token automatisch erfasst. Das klassische Query‑Key‑Value‑Modell entsteht dabei als asymmetrische Erweiterung, die gerichtete Beziehungen modelliert.

Positional Encodings und Multi‑Head Attention werden als strukturierte Verfeinerungen derselben Projektionstheorie dargestellt. Damit wird deutlich, dass die algebraische Form des Transformer‑Architektur nicht zufällig gewählt wurde, sondern aus fundamentalen Prinzipien der Verteilungssprojektion folgt.

Ähnliche Artikel