GPU-gestützte INT8‑Quantisierung reduziert KV‑Cache‑Memory um 4× bei LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als die Modellgewichte selbst. Dieser Speicherengpass erschwert die effiziente Inferenz von LLMs.

Forscher haben eine GPU‑beschleunigte INT8‑Quantisierung entwickelt, die den KV‑Cache komprimiert und damit die Speicherbelastung drastisch senkt. Durch die Reduktion auf 8‑Bit‑Darstellungen wird der Speicherbedarf um bis zu viermal verringert, ohne dass die Modellleistung merklich leidet.

Vier CUDA‑Kernel‑Varianten – naive, tiled, coarsened und vectorized – wurden implementiert und auf realistischen Arbeitslasten bis zu einer Milliarde Elemente getestet. Der vectorisierte Kernel erwies sich als besonders effizient und erzielte bis zu 1 694‑fach schnellere Ausführungszeiten als herkömmliche CPU‑Baselines.

Die Quantisierung führt zu einer Rekonstruktionsfehlerquote von unter 0,004 und einer Fehlerquote bei Aufmerksamkeitswerten von weniger als 0,1, selbst bei 8‑K‑dimensionalen Köpfen. Der zusätzliche Rechenaufwand beträgt lediglich 6 bis 58 ms, sodass die Auswirkungen auf das Modellverhalten praktisch vernachlässigbar bleiben.

Diese Ergebnisse zeigen, dass INT8‑Quantisierung eine praktikable Lösung zur Reduktion von Speicher‑ und Rechenressourcen bei der Inferenz großer Sprachmodelle darstellt, ohne die Genauigkeit oder die Nutzererfahrung zu beeinträchtigen.

Ähnliche Artikel