LLM-Inferezzug: Energieverbrauch von Sprachmodellen gemessen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die rasante Verbreitung von Large Language Models (LLMs) hat einen enormen Energiebedarf ausgelöst – nicht nur beim Training, sondern vor allem bei der groß angelegten Inferenz, die inzwischen den größten Teil des gesamten Lebenszyklusverbrauchs ausmacht.

In einer umfassenden Messstudie wurden über 32.500 Messungen durchgeführt, die 21 verschiedene GPU-Konfigurationen und 155 Modellarchitekturen abdeckten – von kleinen Open‑Source‑Modellen bis hin zu den neuesten, hochleistungsfähigen Systemen.

Die Messungen wurden mit dem vLLM‑Inference‑Engine durchgeführt, wodurch der Energieverbrauch auf Prompt‑Ebene erfasst werden konnte. Durch die Analyse von architektonischen und betrieblichen Faktoren konnten die wichtigsten Treiber des Energieverbrauchs identifiziert werden.

Auf Basis dieser Erkenntnisse wurde ein Vorhersagemodell entwickelt, das den Energieverbrauch von LLM‑Inference für bislang nicht untersuchte Architekturen und Hardware präzise schätzt. Das Modell wurde als Browser‑Erweiterung implementiert, um Anwendern die ökologische Belastung generativer KI in Echtzeit sichtbar zu machen.

Die Ergebnisse unterstreichen die Dringlichkeit, den Energieverbrauch von LLM‑Inference systematisch zu erfassen und zu optimieren. Mit gezielten Maßnahmen lassen sich nicht nur Kosten senken, sondern auch die Umweltbelastung erheblich reduzieren.

Ähnliche Artikel