Grenzen des lernbasierten Wichtigkeitswerts für KV-Cache-Kompression
In einer neuen Untersuchung wurde ein lernbasiertes Verfahren namens Speculative Importance Prediction (SIP) vorgestellt, das versucht, die Wichtigkeit einzelner Tokens im KV‑Cache vorherzusagen, um Speicherplatz effizi…