Selbstaufmerksamkeit als Verteilungssprojektion: Einheitliche Transformer‑Analyse
Ein neues arXiv‑Veröffentlichung (2511.13780v1) liefert eine mathematische Interpretation der Selbstaufmerksamkeit, die sie mit Prinzipien der distributionalen Semantik verbindet. Die Autoren zeigen, dass die Selbstaufmerksamkeit aus der Projektion von Korpus‑Weit‑Ko‑Vorkommensstatistiken in den Kontext einer Sequenz entsteht.