Attention-Head-Linearität in LLMs: Effiziente KV-Cache-Reduktion
In einer aktuellen Studie von arXiv wird gezeigt, dass die Aktivierungen von Attention‑Köpfen in großen Sprachmodellen ein starkes lineares Muster aufweisen. Für ein beliebiges Token lassen sich die Query‑, Key‑ und Val…
- In einer aktuellen Studie von arXiv wird gezeigt, dass die Aktivierungen von Attention‑Köpfen in großen Sprachmodellen ein starkes lineares Muster aufweisen.
- Für ein beliebiges Token lassen sich die Query‑, Key‑ und Value‑Vektoren eines Kopfes häufig als lineare Kombination von nur wenigen Nachbarköpfen rekonstruieren, meist…
- Die Untersuchung umfasst Modelle wie Llama‑3.1‑8B, Falcon3‑10B, OLMo‑2‑7B und Qwen3‑32B.
In einer aktuellen Studie von arXiv wird gezeigt, dass die Aktivierungen von Attention‑Köpfen in großen Sprachmodellen ein starkes lineares Muster aufweisen. Für ein beliebiges Token lassen sich die Query‑, Key‑ und Value‑Vektoren eines Kopfes häufig als lineare Kombination von nur wenigen Nachbarköpfen rekonstruieren, meist innerhalb derselben Schicht.
Die Untersuchung umfasst Modelle wie Llama‑3.1‑8B, Falcon3‑10B, OLMo‑2‑7B und Qwen3‑32B. Dabei konnten mit lediglich zwei bis fünf Referenzköpfen die meisten Zielköpfe mit hoher Genauigkeit wiederhergestellt werden – beispielsweise ein mittlerer R²‑Wert von etwa 0,76 für Keys auf dem C4‑Datensatz und häufig Werte über 0,85 auf GSM8K.
Diese Linearität ist nicht architektonisch vorgegeben, sondern entsteht während des Pretrainings. Sie ist bei zufälliger Initialisierung weitgehend fehlend, steigt jedoch rasch an, wie die Analyse von OLMo‑2‑Checkpoints zeigt. Theoretische Ergebnisse untermauern, dass die lineare Vorhersage zu Beginn einen hohen mittleren quadratischen Fehler aufweist.
Die Autoren nutzen die entdeckte Redundanz, um die KV‑Cache-Größe zu halbieren: Durch das Zwischenspeichern nur der Referenzköpfe und die Rekonstruktion der übrigen Köpfe mittels leichter linearer Transformationen wird die Cache‑Speicherauslastung um 2‑Fach reduziert. Der Genauigkeitsverlust bleibt moderat – durchschnittlich 4,5 bis 5,5 Prozentpunkte bei Falcon3‑10B und Qwen3‑32B, während bei Llama‑3.1‑8B größere Einbußen auftreten.
Die Studie liefert damit einen wichtigen Einblick in die interne Struktur von Transformer‑Modellen und eröffnet praktikable Wege, die Speicher‑ und Rechenkosten bei der Inferenz zu senken, ohne die Leistungsfähigkeit wesentlich zu beeinträchtigen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.