Cacheback: Schnellere LLM-Inferenz durch spekulatives Decoding

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Cacheback Decoding ist ein trainingsfreies, modellunabhängiges Verfahren, das die Lokalität von Sprache nutzt, um die Inferenz großer Sprachmodelle zu beschleunigen. Dabei greift es ausschließlich auf LRU‑Cache‑Tabellen von Token‑n‑Grammen zurück, um Entwürfe zu generieren. Trotz seiner minimalistischen Bauweise erzielt Cacheback die besten Ergebnisse unter vergleichbaren Methoden und lässt sich dank seiner Einfachheit problemlos in bestehende Systeme integrieren. Darüber hinaus zeigt es vielversprechendes Potenzial für eine rasche Anpassung an neue Domänen.

Ähnliche Artikel