LUNA: Lernbare lineare Attention ohne Genauigkeitsverlust
Die neueste Veröffentlichung auf arXiv (2512.08061v1) stellt LUNA vor – eine lernbare, kernelbasierte lineare Attention, die das klassische Problem der quadratischen Softmax‑Kosten umgeht, ohne an Genauigkeit einzubüßen.
Traditionelle lineare Attention‑Modelle reduzieren die Komplexität von O(n²) auf O(n), nutzen jedoch feste, datenunabhängige Feature‑Maps wie zufällige Fourier‑Features. Diese Fixierung führt zu einem unvermeidlichen Kompromiss: Man muss entweder die Rechenleistung erhöhen oder die Modellleistung verlieren. LUNA löst dieses Dilemma, indem sie den Kernel selbst trainiert und damit eine auf die Daten zugeschnittene Feature‑Basis erzeugt.
Durch die lernbare Feature‑Map entsteht ein positiver definitiver Kernel, der in einer Streaming‑Form implementiert werden kann. Das Ergebnis ist eine lineare Zeit- und Speicher‑Skalierung in der Sequenzlänge, ohne dass die Modellgenauigkeit darunter leidet. In umfangreichen Tests – insbesondere auf dem Long‑Range‑Arena‑Benchmark – übertrifft LUNA die bisher besten effizienten Transformer‑Modelle bei gleicher Parameterzahl, Trainingsschritte und FLOPs.
Ein weiteres Highlight ist die Fähigkeit von LUNA, bestehende Softmax‑Modelle post‑hoc zu ersetzen. Damit lässt sich die Effizienz von bereits trainierten Netzwerken drastisch steigern, ohne die Leistung zu beeinträchtigen. LUNA markiert damit einen bedeutenden Fortschritt in der Skalierung von Attention‑Mechanismen für lange Sequenzen.