KVCompose: Effiziente KV-Cache-Kompression mit Composite Tokens
Neues Verfahren namens KVCompose reduziert den Speicherbedarf von Key‑Value‑Caches in großen Sprachmodellen drastisch, ohne die Genauigkeit zu beeinträchtigen. Durch die Kombination von aufmerksamkeitsbasierten Token‑Ge…