Forschung
TinyServe: Schnellere LLM-Serving durch query‑basierte Cache‑Auswahl
Mit TinyServe wird das Ausführen kleiner Sprachmodelle wie TinyLLaMA oder GPT‑2‑345 M deutlich effizienter. Das System kombiniert strukturi…
arXiv – cs.AI