RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning
In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodellen drastisch senkt. Durch die Kompression von KV‑…
- In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodel…
- Durch die Kompression von KV‑Projektionen mittels Low‑Rank‑Faktorisierung – also der Approximation W ≈ A * B – können latente KV‑Zustände erzeugt und anschließend in die…
- Bei modernen RoPE‑basierten Modellen stößt diese Technik jedoch an Grenzen: RoPE zwingt die latenten KV‑Zustände dazu, wieder auf die volle Dimension zurückgerechnet zu…
In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodellen drastisch senkt. Durch die Kompression von KV‑Projektionen mittels Low‑Rank‑Faktorisierung – also der Approximation W ≈ A * B – können latente KV‑Zustände erzeugt und anschließend in die nachfolgenden Gewichte integriert werden.
Bei modernen RoPE‑basierten Modellen stößt diese Technik jedoch an Grenzen: RoPE zwingt die latenten KV‑Zustände dazu, wieder auf die volle Dimension zurückgerechnet zu werden, was die Speicher- und Rechenlast wieder erhöht. Die Autoren schlagen das Konzept „RoPE‑Aligned Pruning“ (RAP) vor, bei dem ganze RoPE‑ausgerichtete Spaltenpaare entfernt werden. Dadurch bleibt die 2×2‑Rotationsstruktur von RoPE erhalten, die Absorption von B wird wieder möglich und die Rekonstruktion entfällt.
Die Evaluation an LLaMA‑3‑8B und Mistral‑7B zeigt, dass RAP gleichzeitig die KV‑Cache‑Größe, die Aufmerksamkeitsparameter und die FLOPs um 20 – 30 % reduziert – und das ohne Qualitätsverlust. Zusätzlich sinkt die Aufmerksamkeitslatenz auf 83 % (Prefill) und 77 % (Decode) im Vergleich zur Ausgangsimplementierung. Dieser Ansatz bietet damit einen vielversprechenden Weg, die Effizienz großer Sprachmodelle nachhaltig zu steigern.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.