Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter
Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem Cache-Budget von 10,2 GB passen bei 8 K‑Kontextgröße nur drei Agenten gleichzeiti…