SpeContext: Effiziente Langkontext-Analyse mit spekulativer Kontextdünnung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung präsentiert SpeContext ein neues Paradigma für die Verarbeitung langer Kontexte in großen Sprachmodellen (LLMs). Das Konzept nutzt ein distilliertes Sprachmodell (DLM) als Retrieval-Algorithmus, wodurch die Informationsfokussierung zwischen DLM und Originalmodell aus Sicht der Informationstheorie optimiert wird.

Auf Algorithmenebene reduziert SpeContext die Parameterzahl um mehr als 90 % durch einen schlanken Retrieval-Head, der auf den Attention‑Gewichten des DLM basiert. Auf Systemebene wird ein asynchroner Prefetch‑Dataflow mit elastischer Lade­strategie entwickelt, der die KV‑Cache‑Abrufung mit der LLM‑Berechnung überlappt. Auf Kompilierungsebene implementiert SpeContext ein theoretisches Speicher‑Modell und ein adaptives Speicher‑Management, das die GPU‑Speicherauslastung maximiert.

Die Evaluation in zwei ressourcenbeschränkten Umgebungen – Cloud und Edge – zeigt beeindruckende Ergebnisse: Im Cloud‑Umfeld erreicht SpeContext bis zu 24,89‑fachen Durchsatz, während im Edge‑Umfeld ein Speed‑up von 10,06‑fach erzielt wird, und dabei die Genauigkeit nahezu unverändert bleibt. Diese Fortschritte verschieben die Pareto‑Grenze von Genauigkeit und Durchsatz neu und eröffnen neue Möglichkeiten für effiziente Langkontext‑Reasoning‑Anwendungen.

Ähnliche Artikel