Attention-Head-Linearität in LLMs: Effiziente KV-Cache-Reduktion
In einer aktuellen Studie von arXiv wird gezeigt, dass die Aktivierungen von Attention‑Köpfen in großen Sprachmodellen ein starkes lineares Muster aufweisen. Für ein beliebiges Token lassen sich die Query‑, Key‑ und Val…