KV-Cache-Management für LLMs: Speicher, Zeit, Genauigkeit & Positionsintegrität
Der Key‑Value‑Cache ist das Herzstück der effizienten autoregressiven Inferenz in großen Sprachmodellen. In mehrstufigen Dialogen wächst er jedoch unbegrenzt, was erhebliche Probleme mit sich bringt. Ein neues Papier untersucht, wie verschiedene Cache‑Management‑Strategien mit den architektonischen Grenzen von Modellen wie meta‑llama/Meta‑Llama‑3‑8b‑instruct und der Integrität der Positionskodierungen zusammenhängen.