Neue Studie enthüllt, wie Attention bei extremen Sequenzlängen konvergiert

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Mit der stetigen Vergrößerung der Kontextfenster in großen Sprachmodellen wird es immer wichtiger, zu verstehen, wie die Attention-Mechanismen bei extrem langen Sequenzen funktionieren. Eine neue Arbeit aus dem arXiv‑Repository liefert dafür ein präzises Maß: die Token‑Sample‑Komplexität, also die Geschwindigkeit, mit der die Attention auf n Tokens zum unendlichen Token‑Grenzwert konvergiert.

Die Autoren untersuchen die Konvergenz auf zwei Ebenen. Zum einen wird die Attention‑Karte selbst betrachtet – die Punkt‑zu‑Punkt‑Abbildung, die jedem Token einen Gewichtungswert zuweist. Zum anderen analysieren sie die Momente der transformierten Token‑Verteilung, also die statistischen Eigenschaften der Token‑Ausgabe der Attention‑Schicht. Für kompakt unterstützte bzw. allgemein sub‑Gauss’sche Token‑Verteilungen zeigen sie, dass die Attention‑Karte auf einem Ball mit Radius R mit der Rate C(R)/√n konvergiert, wobei C(R) exponentiell mit R wächst. Für große R verliert diese Schätzung jedoch an praktischer Relevanz.

Um dieses Problem zu lösen, präsentieren die Forscher eine zweite Konvergenz‑Analyse für die Momente. Hier gilt die Rate C′(R)/n^β mit β < ½, wobei C′(R) polynomial in der Größe des Unterstützungsbereichs der Verteilung wächst. Der Exponent β hängt von der Geometrie der Attention und den spektralen Eigenschaften der Token‑Verteilung ab. Zusätzlich wird ein spezieller Fall untersucht, in dem der Attention‑Parameter gegen unendlich geht und der Softmax‑Ausgang zu einem Hardmax‑Verfahren übergeht. In diesem Szenario wird eine logarithmische Konvergenzrate nachgewiesen.

Experimentelle Ergebnisse – sowohl auf synthetischen Gauß‑Daten als auch auf realen BERT‑Modellen, die mit Wikipedia‑Texten trainiert wurden – bestätigen die theoretischen Vorhersagen. Die Studie liefert damit ein solides Fundament für die weitere Optimierung von Attention‑Mechanismen in Sprachmodellen, die immer größere Kontextfenster verarbeiten müssen.

Ähnliche Artikel