DuetServe: GPU-Multiplexing für LLM-Serving – Präzise Prefill & Decode Isolation
In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rec…
- In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten.
- Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich.
- Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf…
In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich. Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf separate GPUs, was Ressourcen verschwendet, weil Modelle und KV‑Caches dupliziert werden.
DuetServe löst dieses Dilemma, indem es eine isolierte Ausführung beider Phasen innerhalb einer einzigen GPU ermöglicht. Standardmäßig arbeitet das System aggregiert, aktiviert jedoch dynamisch eine SM‑basierte GPU‑Spatial‑Multiplexing‑Strategie, sobald eine TBT‑Verstärkung vorhergesagt wird. Durch fein abgestimmte, adaptive SM‑Partitionen wird Prefill und Decode nur dann getrennt, wenn die Konkurrenz die Latenz‑SLOs gefährdet.
Die Technik stützt sich auf drei Kernkomponenten: ein attention‑bewusstes Roofline‑Modell zur Vorhersage der Iterationslatenz, einen Partitionierungsoptimierer, der die optimale SM‑Aufteilung zur Maximierung des Durchsatzes unter TBT‑Beschränkungen auswählt, und einen unterbrechungsfreien Ausführungs‑Engine, der CPU‑GPU‑Synchronisationskosten eliminiert.
Evaluierungen zeigen, dass DuetServe den Gesamtdurchsatz um bis zu 1,3‑fach steigern kann, während die Generierungslatenz im Vergleich zu führenden Frameworks niedrig bleibt. Damit bietet es eine effiziente, ressourcenschonende Lösung für die anspruchsvollen Anforderungen moderner LLM‑Serving‑Systeme.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.