TinyServe: Schnellere LLM-Serving durch query‑basierte Cache‑Auswahl
Mit TinyServe wird das Ausführen kleiner Sprachmodelle wie TinyLLaMA oder GPT‑2‑345 M deutlich effizienter. Das System kombiniert strukturierte KV‑Sparsity, ein plugin‑basiertes Token‑Auswahl‑Modul und hardware‑effiziente Attention‑Kernels, um die Speicher‑ und Latenzkosten bei der autoregressiven Dekodierung zu senken.