SurfaceLogicKV: Mit Aufmerksamkeitsverhalten die KV-Cache‑Kompression optimieren
Die steigende Eingabesequenzlänge in großen Sprachmodellen belastet den Key‑Value‑Cache stark. Ein neues Verfahren namens SurfaceLogicKV nutzt dabei die unterschiedlichen Aufmerksamkeitsverhalten einzelner Köpfe – etwa…