RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning
In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodellen drastisch senkt. Durch die Kompression von KV‑…