GPU-gestützte INT8‑Quantisierung reduziert KV‑Cache‑Memory um 4× bei LLMs
In großen Sprachmodellen wächst der Key‑Value‑Cache (KV‑Cache) linear mit der Sequenzlänge und kann sogar mehr Speicher beanspruchen als die Modellgewichte selbst. Dieser Speicherengpass erschwert die effiziente Inferen…