Neue Attention‑Methode verhindert Sinks und sorgt für ultra‑sparse Modelle
Softmax‑Attention hat lange Zeit die Verarbeitung großer Textsequenzen erschwert, weil die strenge Summe‑zu‑Eins‑Beschränkung zu „Sinks“ an irrelevanten Tokens führt und die Wahrscheinlichkeit mit zunehmender Länge verstreut wird.
Die neue Technik, Threshold Differential Attention (TDA), löst diese Probleme, indem sie nur die extremen Werte in jeder Zeile beibehält. Durch ein längenabhängiges Gate werden nur die Überschreitungen gespeichert, während ein inhibitorischer Blick die Ausdruckskraft erhöht.
Wissenschaftlich nachgewiesen: TDA begrenzt die erwartete Anzahl unerwünschter Überlebender pro Zeile auf O(1) und lässt konsistente, falsche Treffer mit wachsendem Kontext verschwinden.
In Experimenten erreicht TDA mehr als 99 % exakte Nullen, eliminiert Sinks und liefert gleichzeitig Leistungen, die mit den besten Standard‑ und Long‑Context‑Benchmarks vergleichbar sind.
Damit bietet TDA eine sinkfreie, ultra‑sparsame Attention‑Methode, die ohne zusätzliche Rechenkosten arbeitet und die Robustheit bei langen Texten deutlich verbessert.