LLM-Infere Scheduling: Unsicherheitsbewusste Ausgabe-Längenvorhersagen
In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend. Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt…
- In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend.
- Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt werden, um Blockierungen am Anfang der Warteschlange zu…
- Doch die meisten Ansätze schätzen die Ausgabelänge lediglich als einzelner Wert ab, obwohl die eigentliche Länge bei der stochastischen Decodierung ungewiss ist und erst…
In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend. Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt werden, um Blockierungen am Anfang der Warteschlange zu vermeiden. Doch die meisten Ansätze schätzen die Ausgabelänge lediglich als einzelner Wert ab, obwohl die eigentliche Länge bei der stochastischen Decodierung ungewiss ist und erst beim Auftreten des End-of-Sequence‑Tokens bestimmt wird.
Die Autoren zeigen anhand umfangreicher Datenanalysen, dass die Ausgabelängen einer schweren, schlanken Verteilung folgen – genauer gesagt, der Log‑t‑Verteilung. Anstatt also einen Punktwert zu verwenden, schlagen sie vor, die gesamte Wahrscheinlichkeitsverteilung zu berücksichtigen. Dafür entwickeln sie die Kennzahl „Tail Inflated Expectation“ (TIE), die den Erwartungswert einer Log‑t‑Verteilung um die Wahrscheinlichkeit langer Ausgaben anpasst. Dadurch wird das Risiko von extrem langen Ausgaben in die SJF‑Planung einbezogen.
In Experimenten gegen drei starke Baselines konnte die TIE‑Scheduler‑Methode die durchschnittliche Token‑Verzögerung bei Online‑Inference um das 2,31‑fache senken und die Durchsatzrate bei Offline‑Datengenerierung um das 1,42‑fache steigern. Diese Ergebnisse zeigen, dass die Berücksichtigung von Unsicherheit in der Ausgabelängenvorhersage die Effizienz von LLM‑Inference deutlich verbessern kann.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.