DuetServe: GPU-Multiplexing für LLM-Serving – Präzise Prefill & Decode Isolation
In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rechenintensive Prefill‑Bereich und der speicherintensive Decode‑Bereich. Traditionelle Ansätze teilen diese Phasen entweder auf einer gemeinsamen GPU, was zu Interferenzen und schlechter Token‑zu‑Token‑Zeit (TBT) führt, oder verteilen sie auf separate GPUs, was Ressourcen verschwendet, weil Modelle und KV‑Caches dupliziert werden.