Jede Kopf zählt: Sparsame Aufmerksamkeit ohne Performance‑Kompromiss
Die Entwicklung großer Sprachmodelle (LLMs) wurde lange Zeit durch ein grundlegendes Dilemma im Kernmechanismus der Aufmerksamkeitsberechnung gehemmt: die bemerkenswerte Ausdruckskraft der Multi‑Head‑Attention geht mit einer quadratischen Komplexität von O(H·N²) einher, die mit der Kontextlänge N und der Anzahl der Köpfe H wächst. Diese Standardimplementierung führt zu erheblicher Rechenredundanz, weil alle Köpfe unabhängig voneinander die gleiche Sequenz berechnen.
Aktuelle sparsartige Ansätze reduzieren zwar die Rechenlast, opfern dabei jedoch oft die Informationsintegrität. SPAttention löst dieses Problem, indem es ein neues Paradigma namens „Principled Structural Sparsity“ einführt. Anstatt Verbindungen einfach zu entfernen, teilt SPAttention die gesamte Aufmerksamkeitsarbeit in ausgewogene, nicht überlappende Distanzbänder auf und weist jedem Kopf ein einzigartiges Segment zu. Dadurch wird die Multi‑Head‑Attention von H unabhängigen O(N²)-Berechnungen zu einer einzigen kollaborativen O(N²)-Operation reduziert, was die Komplexität um den Faktor H senkt.
Durch diese strukturierte Induktionsbias wird eine funktionale Spezialisierung der Köpfe gefördert, sodass Rechenressourcen von redundanten Modellen auf unterschiedliche Abhängigkeiten im gesamten Sequenzbereich umverteilt werden. Umfangreiche Tests an den Modellen OLMoE‑1B‑7B und 0.25B‑1.75B zeigen, dass SPAttention die Durchsatzrate um etwa das Doppelte steigert, ohne die Modellleistung zu beeinträchtigen.