RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning
In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodellen drastisch senkt. Durch die Kompression von KV‑Projektionen mittels Low‑Rank‑Faktorisierung – also der Approximation W ≈ A * B – können latente KV‑Zustände erzeugt und anschließend in die nachfolgenden Gewichte integriert werden.