SkipKV: Effiziente KV-Kompression für große Rechenmodelle
Große Rechenmodelle für logisches Denken verbrauchen bei der Inferenz enorme Mengen an Key‑Value‑Cache, weil die ausführliche „Chain‑of‑Thought“-Erklärung linear wächst. Dieser Speicher‑ und Durchsatzengpass limitiert d…