DuetServe: GPU-Multiplexing für LLM-Serving – Präzise Prefill & Decode Isolation
In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, gleichzeitig hohe Durchsatzraten zu erzielen und gleichzeitig strenge Latenz‑SLOs einzuhalten. Dabei stehen zwei unterschiedliche Phasen im Fokus: der rec…