LLM-Inference auf IoT: Adaptive Split-Computing reduziert Speicher und Latenz
Große Sprachmodelle (LLMs) erreichen inzwischen nahezu menschliche Leistungen in einer Vielzahl von Denkaufgaben, doch ihre Nutzung auf ressourcenbeschränkten Internet-of-Things-Geräten bleibt bislang unrealistisch. Der Hauptgrund dafür ist der enorme Parameterumfang und der speicherintensive, autoregressive Decodierungsprozess, bei dem Tokens nacheinander generiert werden und ein wachsender Key‑Value‑Cache entsteht.