KVzap: Schnelle, adaptive KV-Cache-Kompression ohne Genauigkeitsverlust
Eine neue Veröffentlichung auf arXiv (2601.07891v1) präsentiert KVzap, eine Methode zur effizienten Reduktion des Key‑Value‑Caches in transformer‑basierten Sprachmodellen. Durch die stetig wachsenden Kontextlängen wird der KV‑Cache zu einem entscheidenden Engpass bei der Inferenz.
Obwohl zahlreiche Pruning‑Ansätze entwickelt wurden, haben sie bislang nicht die breite Akzeptanz in führenden Inferenz‑Engines gefunden – meist wegen ungünstiger Abwägungen zwischen Geschwindigkeit und Genauigkeit. KVzap löst dieses Problem, indem es eine schnelle, auf Eingaben adaptive Approximation von KVzip bietet, die sowohl im Prefilling als auch im Decoding einsetzbar ist.
In Tests mit Qwen3‑8B, Llama‑3.1‑8B‑Instruct und Qwen3‑32B, die lange Kontext‑ und Rechenaufgaben abdecken, erzielt KVzap eine Kompression des KV‑Caches um das 2‑ bis 4‑fache. Dabei bleibt die Genauigkeit nahezu unverändert, und die Methode erreicht die Spitzenposition auf dem KVpress‑Leaderboard.
Der Quellcode sowie die Modelle sind frei verfügbar unter https://github.com/NVIDIA/kvpress.