Grenzen des lernbasierten Wichtigkeitswerts für KV-Cache-Kompression
In einer neuen Untersuchung wurde ein lernbasiertes Verfahren namens Speculative Importance Prediction (SIP) vorgestellt, das versucht, die Wichtigkeit einzelner Tokens im KV‑Cache vorherzusagen, um Speicherplatz effizienter zu nutzen. SIP nutzt 1,7 Millionen Parameter und arbeitet ohne Kenntnis der aktuellen Anfrage, indem es nur die KV‑Repräsentationen analysiert.