Forschung
KVCompose: Effiziente KV-Cache-Kompression mit Composite Tokens
Neues Verfahren namens KVCompose reduziert den Speicherbedarf von Key‑Value‑Caches in großen Sprachmodellen drastisch, ohne die Genauigkeit…
arXiv – cs.LG