<p>ORBITFLOW: Adaptive KV-Cache-Optimierung steigert LLM-Performance um bis zu 3,3×</p> <p>Die Ausführung von Sprachmodellen mit langen Kontexten stellt die KI-Community vor ein großes Problem: Während die Token‑Generierung fortschreitet, schwankt der Speicherbedarf stark, sodass die GPU‑Speicherauslastung unvorhersehbar wird. Traditionelle Offloading‑Strategien, die KV‑Caches statisch in den Host‑Speicher verschieben, können diese Schwankungen nicht in Echtzeit ausgleichen. Das führt zu häufigen CPU‑zu‑GPU

arXiv – cs.AI Original
Anzeige