Forschung arXiv – cs.LG

LLM-Infere Scheduling: Unsicherheitsbewusste Ausgabe-Längenvorhersagen

In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend. Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend.
  • Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt werden, um Blockierungen am Anfang der Warteschlange zu…
  • Doch die meisten Ansätze schätzen die Ausgabelänge lediglich als einzelner Wert ab, obwohl die eigentliche Länge bei der stochastischen Decodierung ungewiss ist und erst…

In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend. Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt werden, um Blockierungen am Anfang der Warteschlange zu vermeiden. Doch die meisten Ansätze schätzen die Ausgabelänge lediglich als einzelner Wert ab, obwohl die eigentliche Länge bei der stochastischen Decodierung ungewiss ist und erst beim Auftreten des End-of-Sequence‑Tokens bestimmt wird.

Die Autoren zeigen anhand umfangreicher Datenanalysen, dass die Ausgabelängen einer schweren, schlanken Verteilung folgen – genauer gesagt, der Log‑t‑Verteilung. Anstatt also einen Punktwert zu verwenden, schlagen sie vor, die gesamte Wahrscheinlichkeitsverteilung zu berücksichtigen. Dafür entwickeln sie die Kennzahl „Tail Inflated Expectation“ (TIE), die den Erwartungswert einer Log‑t‑Verteilung um die Wahrscheinlichkeit langer Ausgaben anpasst. Dadurch wird das Risiko von extrem langen Ausgaben in die SJF‑Planung einbezogen.

In Experimenten gegen drei starke Baselines konnte die TIE‑Scheduler‑Methode die durchschnittliche Token‑Verzögerung bei Online‑Inference um das 2,31‑fache senken und die Durchsatzrate bei Offline‑Datengenerierung um das 1,42‑fache steigern. Diese Ergebnisse zeigen, dass die Berücksichtigung von Unsicherheit in der Ausgabelängenvorhersage die Effizienz von LLM‑Inference deutlich verbessern kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Welches konkrete Problem loest das Modell besser als bisher?
Was bedeutet die Neuerung fuer Geschwindigkeit, Kosten oder Zuverlaessigkeit?
Was veraendert sich praktisch?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Inference-Planung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Shortest Job First
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen