Forschung arXiv – cs.LG

GPU-gestützte INT8‑Quantisierung reduziert KV‑Cache‑Memory um 4× bei LLMs

In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als die Modellgewichte selbst. Dieser Speicherengpass erschwert die effiziente Inferen…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als die Modellgewichte selbst.
  • Dieser Speicherengpass erschwert die effiziente Inferenz von LLMs.
  • Forscher haben eine GPU‑beschleunigte INT8‑Quantisierung entwickelt, die den KV‑Cache komprimiert und damit die Speicherbelastung drastisch senkt.

In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als die Modellgewichte selbst. Dieser Speicherengpass erschwert die effiziente Inferenz von LLMs.

Forscher haben eine GPU‑beschleunigte INT8‑Quantisierung entwickelt, die den KV‑Cache komprimiert und damit die Speicherbelastung drastisch senkt. Durch die Reduktion auf 8‑Bit‑Darstellungen wird der Speicherbedarf um bis zu viermal verringert, ohne dass die Modellleistung merklich leidet.

Vier CUDA‑Kernel‑Varianten – naive, tiled, coarsened und vectorized – wurden implementiert und auf realistischen Arbeitslasten bis zu einer Milliarde Elemente getestet. Der vectorisierte Kernel erwies sich als besonders effizient und erzielte bis zu 1 694‑fach schnellere Ausführungszeiten als herkömmliche CPU‑Baselines.

Die Quantisierung führt zu einer Rekonstruktionsfehlerquote von unter 0,004 und einer Fehlerquote bei Aufmerksamkeitswerten von weniger als 0,1, selbst bei 8‑K‑dimensionalen Köpfen. Der zusätzliche Rechenaufwand beträgt lediglich 6 bis 58 ms, sodass die Auswirkungen auf das Modellverhalten praktisch vernachlässigbar bleiben.

Diese Ergebnisse zeigen, dass INT8‑Quantisierung eine praktikable Lösung zur Reduktion von Speicher‑ und Rechenressourcen bei der Inferenz großer Sprachmodelle darstellt, ohne die Genauigkeit oder die Nutzererfahrung zu beeinträchtigen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Key-Value-Cache
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
INT8-Quantisierung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
CUDA-Kernel
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen