Jede Kopf zählt: Sparsame Aufmerksamkeit ohne Performance‑Kompromiss
Die Entwicklung großer Sprachmodelle (LLMs) wurde lange Zeit durch ein grundlegendes Dilemma im Kernmechanismus der Aufmerksamkeitsberechnung gehemmt: die bemerkenswerte Ausdruckskraft der Multi‑Head‑Attention geht mit einer quadratischen Komplexität von O(H·N²) einher, die mit der Kontextlänge N und der Anzahl der Köpfe H wächst. Diese Standardimplementierung führt zu erheblicher Rechenredundanz, weil alle Köpfe unabhängig voneinander die gleiche Sequenz berechnen.