Cacheback: Schnellere LLM-Inferenz durch spekulatives Decoding
Cacheback Decoding ist ein trainingsfreies, modellunabhängiges Verfahren, das die Lokalität von Sprache nutzt, um die Inferenz großer Sprachmodelle zu beschleunigen. Dabei greift es ausschließlich auf LRU‑Cache‑Tabellen…