Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem Cache-Budget von 10,2 GB passen bei 8 K‑Kontextgröße nur drei Agenten gleichzeitig in FP16. Ein Workflow mit zehn Agenten muss daher ständig KV‑Caches evictieren und neu laden, was ohne Persistenz zu einer vollständigen Prefill‑Rechnung führt – etwa 15,7 Sekunden pro Agent bei 4 K Kontext.

Die neue Lösung speichert jeden Agenten‑KV‑Cache dauerhaft auf der Festplatte in einem 4‑Bit‑quantisierten Format. Beim nächsten Aufruf wird der Cache direkt in die Attention‑Schicht geladen, wodurch die aufwändige O(n)-Prefill‑Berechnung entfällt. Das System besteht aus drei Kernkomponenten: einem Block‑Pool, der isolierte Q4‑KV‑Caches im safetensors‑Format bereitstellt; einem BatchQuantizedKVCache, der gleichzeitig mehrere quantisierte Caches verarbeitet; und einer Cross‑Phase‑Context‑Injection, die den Attention‑Zustand über Gesprächsphasen hinweg ohne erneute Berechnung anhäuft.

In Tests mit Gemma 3 12B, DeepSeek‑Coder‑V2‑Lite 16B und Llama 3.1 8B reduziert die Cache‑Restoration die Zeit bis zum ersten Token um bis zu 136‑fach (Gemma: 22–136× bei 4 K–32 K, DeepSeek: 11–76× bei 4 K–32 K, Llama: 24–111× bei 4 K–16 K). Q4‑Quantisierung ermöglicht zudem, viermal mehr Agenten‑Kontexte im gleichen Speicherplatz unterzubringen als FP16. Die gemessene Perplexität ändert sich minimal – –0,7 % bei Gemma, +2,8 % bei Llama und +3,0 % bei DeepSeek.

Der komplette Code ist Open‑Source verfügbar unter https://github.com/yshk-mxim/agent-memory.

Ähnliche Artikel

🍪 Cookie-Einstellungen