Forschung arXiv – cs.LG

DuetServe: GPU-Multiplexing für LLM-Serving – Präzise Prefill & Decode Isolation

In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rec…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten.
  • Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich.
  • Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf…

In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich. Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf separate GPUs, was Ressourcen verschwendet, weil Modelle und KV‑Caches dupliziert werden.

DuetServe löst dieses Dilemma, indem es eine isolierte Ausführung beider Phasen innerhalb einer einzigen GPU ermöglicht. Standardmäßig arbeitet das System aggregiert, aktiviert jedoch dynamisch eine SM‑basierte GPU‑Spatial‑Multiplexing‑Strategie, sobald eine TBT‑Verstärkung vorhergesagt wird. Durch fein abgestimmte, adaptive SM‑Partitionen wird Prefill und Decode nur dann getrennt, wenn die Konkurrenz die Latenz‑SLOs gefährdet.

Die Technik stützt sich auf drei Kernkomponenten: ein attention‑bewusstes Roofline‑Modell zur Vorhersage der Iterationslatenz, einen Partitionierungsoptimierer, der die optimale SM‑Aufteilung zur Maximierung des Durchsatzes unter TBT‑Beschränkungen auswählt, und einen unterbrechungsfreien Ausführungs‑Engine, der CPU‑GPU‑Synchronisationskosten eliminiert.

Evaluierungen zeigen, dass DuetServe den Gesamtdurchsatz um bis zu 1,3‑fach steigern kann, während die Generierungslatenz im Vergleich zu führenden Frameworks niedrig bleibt. Damit bietet es eine effiziente, ressourcenschonende Lösung für die anspruchsvollen Anforderungen moderner LLM‑Serving‑Systeme.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Welches konkrete Problem loest das Modell besser als bisher?
Was bedeutet die Neuerung fuer Geschwindigkeit, Kosten oder Zuverlaessigkeit?
Was veraendert sich praktisch?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
GPU
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Prefill
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen