LLM-Ausgabe-Länge präzise vorhersagen – neue Entropie-basierte Methode
Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung. In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitun…
- Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung.
- In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitung von Anfragen unnötig viel Padding eingesetzt wird.
- Besonders bei Reinforcement‑Learning‑Sampling und anderen stochastischen „One‑to‑Many“-Szenarien wird das Problem noch verschärft.
Die Länge von Textsequenzen, die von großen Sprachmodellen (LLMs) erzeugt werden, folgt einer stark unausgeglichenen Verteilung. In der Praxis führt das zu erheblichem Rechenverschwendung, weil bei der Stapelverarbeitung von Anfragen unnötig viel Padding eingesetzt wird. Besonders bei Reinforcement‑Learning‑Sampling und anderen stochastischen „One‑to‑Many“-Szenarien wird das Problem noch verschärft.
Aktuelle Ansätze setzen auf separate Vorhersagemodelle, um die Sequenzlänge zu schätzen. Diese Zusatzmodelle verursachen jedoch hohen Overhead, generalisieren schlecht und können die dynamische Länge‑Erzeugung nicht zuverlässig abbilden. Das neue, leichtgewichtige Framework nutzt stattdessen die bereits im Hauptmodell vorhandenen Hidden States, um die Länge effizient vorherzusagen.
Das System besteht aus zwei Kernkomponenten: Entropy‑Guided Token Pooling (EGTP) verwendet die laufenden Aktivierungen und die Token‑Entropie, um statische Längen mit minimalem Aufwand genau zu bestimmen. Progressive Length Prediction (PLP) schätzt die verbleibende Länge schrittweise während des Decodings, sodass auch bei stochastischer Generierung präzise Vorhersagen möglich sind.
Zur Validierung wurde das Benchmark‑Set ForeLen entwickelt, das lange Sequenzen, Chain‑of‑Thought‑Aufgaben und RL‑Daten umfasst. EGTP erreichte auf ForeLen einen branchenführenden Fehler von 29,16 % weniger MAE als die beste Vergleichsbasis. Durch die Kombination mit einem längen‑sensiblen Scheduler konnten signifikante Durchsatzgewinne erzielt werden. Diese Arbeit liefert damit einen neuen technischen und evaluativen Standard für effiziente LLM‑Inference.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.