Transformer-Keys verkleinern: Low-Dimensional Attention spart Speicher
In einer neuen Studie wird die bisherige Symmetrie im Transformer‑Attention‑Mechanismus in Frage gestellt. Während klassische Modelle dieselbe Dimensionalität für Queries, Keys und Values einsetzen, zeigen die Autoren, dass Queries und Keys lediglich zur Auswahl von Aufmerksamkeit dienen und daher viel weniger Dimensionen benötigen als die semantisch reichhaltigen Values.
Die Hypothese, dass die Auswahl nur O(log N) Dimensionen erfordert, wird in sieben Experimenten bestätigt. Für Positions‑Auswahlaufgaben reicht ein einzelner Dimension pro Head, während bei inhaltsbasierten Retrieval‑Tests etwa log₂ N Dimensionen ausreichen. Bei den Sprachmodellen WikiText‑2 und WikiText‑103 führt die Reduktion der Key‑Dimension auf ein Viertel der Modellgröße zu lediglich 4,3 % höherer Perplexität, während die Parameter für QK um 75 % reduziert werden. In GPT‑2 wird gezeigt, dass Keys deutlich stärker komprimierbar sind als Queries; eine nachträgliche SVD‑Kompression und anschließende Feinabstimmung stellen die Qualität nahezu vollständig wieder her. Ähnliche Ergebnisse gelten für ein 125 M‑Parameter‑LLaMA‑Modell und für Mistral‑7B, wo SVD‑Kompression plus Feinabstimmung 75 % Speicherplatz für Keys spart und nur 2 % Qualitätsverlust verursacht.
Die Ergebnisse deuten darauf hin, dass bestehende Modelle durch eine Kombination aus SVD‑Kompression und kurzer Feinabstimmung (nur drei Epochen auf einem kleinen Teil der Vortrainingsdaten) Speicherplatz für Keys um bis zu 75 % einsparen können, ohne die Leistung merklich zu beeinträchtigen. Für große Modelle mit 128 K‑Kontextfenstern eröffnet dies neue Möglichkeiten, die Effizienz zu steigern und gleichzeitig die Modellgröße zu reduzieren.