TRIM‑KV: Intelligente Token‑Retention verbessert LLM‑Speicherleistung
In der Welt der großen Sprachmodelle (LLMs) stellen Speicher- und Rechenkosten die größten Hindernisse für lange Kontextverarbeitung dar. Der quadratische Aufwand der Selbstaufmerksamkeit und die stetig wachsende Key‑Value‑Cache (KV‑Cache) erschweren effiziente Inferenz. Traditionelle Ansätze wie Quantisierung, Offloading oder heuristische Cache‑Eviction führen zu hohen Orchestrationskosten oder verlassen sich auf unzuverlässige Aufmerksamkeitssignale.