CXL‑SpecKV: FPGA‑basierter KV‑Cache für schnellere LLM‑Server
Die neuesten großen Sprachmodelle (LLMs) erfordern enorme Key‑Value‑Caches, die während der autoregressiven Dekodierung viel GPU‑Speicher beanspruchen. Das begrenzt die Batch‑Größen und senkt die Gesamthardware‑Durchsatzrate. Mit der neuen Architektur CXL‑SpecKV wird dieses Problem angegangen, indem die KV‑Caches über Compute Express Link (CXL) zu FPGA‑Speicher‑Einheiten ausgelagert werden.
Die Lösung kombiniert drei zentrale Innovationen: Erstens ein CXL‑basiertes Speicher‑Disaggregations‑Framework, das die KV‑Caches mit niedriger Latenz auf entfernten FPGA‑Speichern ablegt. Zweitens ein spekulatives Prefetch‑System, das zukünftige Token‑Cache‑Einträge vorhersagt und vorab lädt. Drittens ein FPGA‑beschleunigter Kompressions‑ und Dekompressions‑Engine, die die Bandbreitenanforderungen um bis zu viermal reduziert.
In Tests mit modernen LLM‑Modellen konnte CXL‑SpecKV die Durchsatzrate um bis zu 3,2‑fach erhöhen, die Speicher‑Kosten um 2,8‑fach senken und gleichzeitig die Genauigkeit beibehalten. Diese Ergebnisse zeigen, dass intelligente Speicher‑Disaggregation in Kombination mit spekulativem Caching die Speicher‑Grenze in groß angelegten LLM‑Servern effektiv überwinden kann.
Der komplette Code ist als Open‑Source‑Projekt auf GitHub verfügbar: https://github.com/FastLM/CXL-SpecKV.