LOOKAT: Lookup-Optimierte Key‑Attention für Speicher‑effiziente Transformer

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neueste Veröffentlichung von Forschern auf arXiv zeigt, wie man die Schlüssel‑ und Wert‑Cache‑Speicherung von großen Sprachmodellen drastisch reduzieren kann, ohne die Leistung zu beeinträchtigen. Traditionelle Quantisierungsmethoden komprimieren zwar den Speicher, lassen jedoch die Bandbreite unverändert, weil die Schlüssel bei der Attention‑Berechnung von INT4/INT8 in FP16 zurückkonvertiert werden müssen.

Die Autoren stellen fest, dass die Berechnung der Attention‑Scores mathematisch äquivalent zu einer inneren Produkt‑Ähnlichkeitssuche ist. Dadurch können Techniken aus der Welt der Vektor‑Datenbanken – insbesondere Produkt‑Quantisierung und asymmetrische Distanzberechnung – eingesetzt werden, um den KV‑Cache effizienter zu komprimieren. Das Ergebnis ist LOOKAT, ein Verfahren, das die Schlüsselvektoren in Teilräume zerlegt, Codebücher lernt und die Attention‑Berechnung über Lookup‑Tabellen ausführt.

Durch diese Umstellung wird die Attention von einem speicher‑basierten zu einem rechen‑basierten Prozess. In Tests mit GPT‑2 erreicht LOOKAT eine Kompression von 64‑fach bei 95,7 % Ausgabefidelität und 32‑fach bei 95,0 %. Das Verfahren erfordert keine Änderungen an der Modellarchitektur oder zusätzliche Trainingsschritte und hält die Rang‑Korrelation bei über 0,95. Theoretische Analysen zeigen, dass die Rang‑Korrelation mit O(d_k/mK) abnimmt, was in Experimenten bis zu 1024 Token bestätigt wurde.

Ähnliche Artikel