Disaggregated LLM-Serving: Performance und Energie im Fokus
In einer neuen Studie wird die Idee des disaggregierten LLM-Servings – bei dem die Vorverarbeitung (Prefill) und die Decodierung auf getrennten GPUs laufen – eingehend untersucht. Durch den Transfer des KV‑Caches zwisch…