Neue Skalierungsformeln für Energieeffizienz lokaler LLMs

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die Veröffentlichung von arXiv:2512.16531v1 beleuchtet, wie lokale Sprach- und Vision‑Language‑Modelle auf Edge‑Geräten betrieben werden können, ohne dabei Genauigkeit und Energieverbrauch zu opfern. Während Grafikprozessoren die meisten KI‑Deployments dominieren, nutzen die meisten Konsumentengeräte – von Laptops über Desktops bis hin zu eingebetteten Systemen – ausschließlich CPUs. Trotz dieser Dominanz sind die Rechen­gesetze für CPU‑nur‑Inference bei lokalen Sprach- und Vision‑Modellen bislang kaum erforscht.

In der Studie wurden zwei typische CPU‑Plattformen systematisch benchmarked: der MacBook Pro M2, der die Mainstream‑Laptop‑Klasse repräsentiert, und der Raspberry Pi 5, der die Einschränkungen von Low‑Power‑Embedded‑Systemen widerspiegelt. Durch kontinuierliches Sampling von Prozessor‑ und Speicher­auslastung sowie die Integration der Flächen unter der Kurve konnten die Autoren die Skalierung des Rechenaufwands in Abhängigkeit von Textlänge (für Sprachmodelle) und Bildauflösung (für Vision‑Language‑Modelle) exakt bestimmen.

Die Ergebnisse liefern zwei klare Skalierungs­gesetze: Erstens steigt der Rechenaufwand für Sprachmodell‑Inference nahezu linear mit der Tokenlänge. Zweitens zeigen Vision‑Language‑Modelle ein „Resolution‑Knee“ – die Rechenleistung bleibt über einer internen Auflösungsklammer konstant, fällt aber deutlich ab, sobald die Auflösung darunter liegt. Diese Erkenntnisse ermöglichen es, die Modellgröße und Auflösung gezielt anzupassen, um die Energieeffizienz zu maximieren.

Ein weiteres Highlight der Arbeit ist die Demonstration, dass quantum‑inspirierte Kompression die Prozessor‑ und Speicher­auslastung um bis zu 71,9 % senken kann, was gleichzeitig zu erheblichen Einsparungen beim Energieverbrauch führt. Diese Fortschritte legen den Grundstein für ressourcenschonende KI‑Anwendungen auf einer breiten Palette von Geräten.

Ähnliche Artikel