SkipKV: Effiziente KV-Kompression für große Rechenmodelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Große Rechenmodelle für logisches Denken verbrauchen bei der Inferenz enorme Mengen an Key‑Value‑Cache, weil die ausführliche „Chain‑of‑Thought“-Erklärung linear wächst. Dieser Speicher‑ und Durchsatzengpass limitiert die praktische Nutzung solcher Modelle.

Bei der Untersuchung bestehender Cache‑Eviction‑Methoden zeigte sich, dass sie bei der CoT‑Reasoning‑Inference nicht zuverlässig bleiben. Instabile tokenweise Bewertungen, die durch Padding‑Tokens noch verschärft werden, führen dazu, dass die Modelle länger werden und die Genauigkeit sinkt. Zudem erzeugen sie oft unnötig lange Sequenzen, weil wiederholte Validierungen stattfinden.

SkipKV bietet eine komplett trainingsfreie Lösung, die auf Satz‑Ebene arbeitet. Durch ein spezielles Satz‑Bewertungsmaß werden stark ähnliche Sätze erkannt und entfernt, ohne die semantische Kohärenz zu verlieren. Gleichzeitig passt SkipKV dynamisch einen Steuerungsvektor an, um die Aktivierungszustände während der Inferenz zu aktualisieren und die Modellantworten kompakter zu machen.

Tests auf mehreren Rechenbenchmarks zeigen, dass SkipKV die Genauigkeit um bis zu 26,7 % steigern kann, während gleichzeitig die KV‑Cache‑Größe deutlich reduziert wird. Damit wird die effiziente Nutzung großer Rechenmodelle in der Praxis erheblich erleichtert.

Ähnliche Artikel