Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %
Die neue Studie von EMCLab-Sinica zeigt, dass die häufigste Ursache für langsame Langkontext-Inferenz bei großen Sprachmodellen nicht die quadratische Aufmerksamkeit selbst, sondern das indiscriminierte Schreiben von Schlüssel-Wert-Paaren (KV) in den Cache ist. Durch die Einführung eines lernbasierten Filters – Write‑Gated KV – kann das System vorab vorhersagen, welche Tokens wirklich nützlich sind, bevor sie in den Cache gelangen.