Forschung arXiv – cs.AI

LLM-Ausgabe-Länge präzise vorhersagen – neue Entropie-basierte Methode

Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung. In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitun…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung.
  • In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitung von Anfragen unnötig viel Padding eingesetzt wird.
  • Besonders bei Reinforcement‑Learning‑Sampling und anderen stochastischen „One‑to‑Many“-Szenarien wird das Problem noch verschärft.

Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung. In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitung von Anfragen unnötig viel Padding eingesetzt wird. Besonders bei Reinforcement‑Learning‑Sampling und anderen stochastischen „One‑to‑Many“-Szenarien wird das Problem noch verschärft.

Aktuelle Ansätze setzen auf separate Vorhersagemodelle, um die Sequenzlänge zu schätzen. Diese Zusatzmodelle verursachen jedoch hohen Overhead, generalisieren schlecht und können die dynamische Länge‑Erzeugung nicht zuverlässig abbilden. Das neue, leichtgewichtige Framework nutzt stattdessen die bereits im Hauptmodell vorhandenen Hidden States, um die Länge effizient vorherzusagen.

Das System besteht aus zwei Kernkomponenten: Entropy‑Guided Token Pooling (EGTP) verwendet die laufenden Aktivierungen und die Token‑Entropie, um statische Längen mit minimalem Aufwand genau zu bestimmen. Progressive Length Prediction (PLP) schätzt die verbleibende Länge schrittweise während des Decodings, sodass auch bei stochastischer Generierung präzise Vorhersagen möglich sind.

Zur Validierung wurde das Benchmark‑Set ForeLen entwickelt, das lange Sequenzen, Chain‑of‑Thought‑Aufgaben und RL‑Daten umfasst. EGTP erreichte auf ForeLen einen branchenführenden Fehler von 29,16 % weniger MAE als die beste Vergleichsbasis. Durch die Kombination mit einem längen‑sensiblen Scheduler konnten signifikante Durchsatzgewinne erzielt werden. Diese Arbeit liefert damit einen neuen technischen und evaluativen Standard für effiziente LLM‑Inference.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.