KV-Cache-Management für LLMs: Speicher, Zeit, Genauigkeit & Positionsintegrität
Der Key‑Value‑Cache ist das Herzstück der effizienten autoregressiven Inferenz in großen Sprachmodellen. In mehrstufigen Dialogen wächst er jedoch unbegrenzt, was erhebliche Probleme mit sich bringt. Ein neues Papier un…