CXL‑SpecKV: FPGA‑basierter KV‑Cache für schnellere LLM‑Server
Die neuesten großen Sprachmodelle (LLMs) erfordern enorme Key‑Value‑Caches, die während der autoregressiven Dekodierung viel GPU‑Speicher beanspruchen. Das begrenzt die Batch‑Größen und senkt die Gesamthardware‑Durchsat…