CXL‑SpecKV: FPGA‑basierter KV‑Cache für schnellere LLM‑Server
Die neuesten großen Sprachmodelle (LLMs) erfordern enorme Key‑Value‑Caches, die während der autoregressiven Dekodierung viel GPU‑Speicher beanspruchen. Das begrenzt die Batch‑Größen und senkt die Gesamthardware‑Durchsat…
- Die neuesten großen Sprachmodelle (LLMs) erfordern enorme Key‑Value‑Caches, die während der autoregressiven Dekodierung viel GPU‑Speicher beanspruchen.
- Das begrenzt die Batch‑Größen und senkt die Gesamthardware‑Durchsatzrate.
- Mit der neuen Architektur CXL‑SpecKV wird dieses Problem angegangen, indem die KV‑Caches über Compute Express Link (CXL) zu FPGA‑Speicher‑Einheiten ausgelagert werden.
Die neuesten großen Sprachmodelle (LLMs) erfordern enorme Key‑Value‑Caches, die während der autoregressiven Dekodierung viel GPU‑Speicher beanspruchen. Das begrenzt die Batch‑Größen und senkt die Gesamthardware‑Durchsatzrate. Mit der neuen Architektur CXL‑SpecKV wird dieses Problem angegangen, indem die KV‑Caches über Compute Express Link (CXL) zu FPGA‑Speicher‑Einheiten ausgelagert werden.
Die Lösung kombiniert drei zentrale Innovationen: Erstens ein CXL‑basiertes Speicher‑Disaggregations‑Framework, das die KV‑Caches mit niedriger Latenz auf entfernten FPGA‑Speichern ablegt. Zweitens ein spekulatives Prefetch‑System, das zukünftige Token‑Cache‑Einträge vorhersagt und vorab lädt. Drittens ein FPGA‑beschleunigter Kompressions‑ und Dekompressions‑Engine, die die Bandbreitenanforderungen um bis zu viermal reduziert.
In Tests mit modernen LLM‑Modellen konnte CXL‑SpecKV die Durchsatzrate um bis zu 3,2‑fach erhöhen, die Speicher‑Kosten um 2,8‑fach senken und gleichzeitig die Genauigkeit beibehalten. Diese Ergebnisse zeigen, dass intelligente Speicher‑Disaggregation in Kombination mit spekulativem Caching die Speicher‑Grenze in groß angelegten LLM‑Servern effektiv überwinden kann.
Der komplette Code ist als Open‑Source‑Projekt auf GitHub verfügbar: https://github.com/FastLM/CXL-SpecKV.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.