NVIDIA präsentiert KVTC: 20-fache Kompression von KV-Caches für LLM-Serving
Das Bereitstellen von großen Sprachmodellen (LLMs) in großem Maßstab stellt eine enorme technische Herausforderung dar, weil die Verwaltung der Key‑Value‑Caches (KV‑Caches) die Leistung stark beeinflusst. Mit zunehmende…