DuetServe: GPU-Multiplexing für LLM-Serving – Präzise Prefill & Decode Isolation
In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich. Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf separate GPUs, was Ressourcen verschwendet, weil Modelle und KV‑Caches dupliziert werden.
DuetServe löst dieses Dilemma, indem es eine isolierte Ausführung beider Phasen innerhalb einer einzigen GPU ermöglicht. Standardmäßig arbeitet das System aggregiert, aktiviert jedoch dynamisch eine SM‑basierte GPU‑Spatial‑Multiplexing‑Strategie, sobald eine TBT‑Verstärkung vorhergesagt wird. Durch fein abgestimmte, adaptive SM‑Partitionen wird Prefill und Decode nur dann getrennt, wenn die Konkurrenz die Latenz‑SLOs gefährdet.
Die Technik stützt sich auf drei Kernkomponenten: ein attention‑bewusstes Roofline‑Modell zur Vorhersage der Iterationslatenz, einen Partitionierungsoptimierer, der die optimale SM‑Aufteilung zur Maximierung des Durchsatzes unter TBT‑Beschränkungen auswählt, und einen unterbrechungsfreien Ausführungs‑Engine, der CPU‑GPU‑Synchronisationskosten eliminiert.
Evaluierungen zeigen, dass DuetServe den Gesamtdurchsatz um bis zu 1,3‑fach steigern kann, während die Generierungslatenz im Vergleich zu führenden Frameworks niedrig bleibt. Damit bietet es eine effiziente, ressourcenschonende Lösung für die anspruchsvollen Anforderungen moderner LLM‑Serving‑Systeme.