Neue Messgröße: Effizienz von LLMs anhand von Textkompression bewertet

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In den letzten Jahren haben große Sprachmodelle (LLMs) enorme Fortschritte gemacht und finden in immer mehr Bereichen Anwendung. Gleichzeitig steigt der Bedarf an Rechenressourcen, insbesondere wenn Modelle zur Laufzeit skaliert werden. Diese Entwicklung verdeutlicht die Notwendigkeit, die Inferenzeffizienz von LLMs genauer zu messen.

Ein bislang fehlendes, einheitliches Maß für die Effizienz verschiedener Modelle wird nun mit der sogenannten „Information Capacity“ eingeführt. Diese Kennzahl verbindet die Fähigkeit eines Modells, Text zu komprimieren, mit seinem Rechenaufwand. Größere Modelle erzielen zwar bessere Kompressionsergebnisse, verbrauchen dafür aber auch mehr Ressourcen.

Durch umfangreiche Tests an 49 Open‑Source‑Modellen aus fünf unterschiedlichen Datensätzen zeigte die Studie, dass Modelle einer Serie konsistente Information Capacity-Werte aufweisen. Damit lässt sich die Effizienz fair vergleichen und die Leistung innerhalb einer Modellreihe zuverlässig vorhersagen.

Ein besonderes Merkmal der Information Capacity ist die Berücksichtigung der Tokenizer‑Effizienz. Da Tokenizer sowohl die Eingabe- als auch die Ausgabetoken zählen, beeinflussen sie die Kompression erheblich – ein Faktor, der in bisherigen LLM‑Bewertungen oft vernachlässigt wurde. Die Analyse verdeutlicht zudem, wie Pre‑Training‑Daten und die Mischung aus Experten (Mixture‑of‑Experts) die Effizienz beeinflussen.

Ähnliche Artikel