CommonKV: KV‑Cache effizient komprimieren via benachbarte Parameter
Large Language Models (LLMs) stehen vor einem erheblichen Speicherproblem: Mit zunehmender Sequenzlänge wächst der KV‑Cache exponentiell, was die Modellgröße stark belastet. Aktuelle Ansätze zur Cross‑Layer‑Cache‑Sharin…