Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %
Die neue Studie von EMCLab-Sinica zeigt, dass die häufigste Ursache für langsame Langkontext-Inferenz bei großen Sprachmodellen nicht die quadratische Aufmerksamkeit selbst, sondern das indiscriminierte Schreiben von Schlüssel-Wert-Paaren (KV) in den Cache ist. Durch die Einführung eines lernbasierten Filters – Write‑Gated KV – kann das System vorab vorhersagen, welche Tokens wirklich nützlich sind, bevor sie in den Cache gelangen.
Write‑Gated KV arbeitet als leichtgewichtiges, kausales System, das drei Kernoperationen steuert: KV‑Admission, Auswahl und Eviction. Während die klassischen Ansätze nachträglich entscheiden, welche Einträge entfernt werden, filtert Write‑Gated KV bereits bei der Aufnahme unerwünschte Tokens heraus. Dadurch bleibt der globale Cache kompakt, während ein lokaler, gleitender Cache weiterhin die wichtigsten Informationen speichert.
Die Ergebnisse sind beeindruckend: Für das Llama-Modell wurden Speicherverbrauch um 46 % bis 57 % reduziert, während die Vorhersagegeschwindigkeit (Prefill) um das Dreifache und die Decodierungsgeschwindigkeit um bis zu 2,5‑fach gesteigert wurde – und das ohne erkennbare Qualitätsverluste. Das Verfahren ist zudem vollständig kompatibel mit FlashAttention und paged‑KV‑Systemen, sodass es nahtlos in bestehende Pipelines integriert werden kann.
Der Code ist frei verfügbar unter https://github.com/EMCLab-Sinica/WG-KV und bietet damit Forschern und Entwicklern ein praktisches Werkzeug, um Langkontext-Inferenz effizienter zu gestalten.