Forschung
Disaggregated LLM-Serving: Performance und Energie im Fokus
In einer neuen Studie wird die Idee des disaggregierten LLM-Servings – bei dem die Vorverarbeitung (Prefill) und die Decodierung auf getren…
arXiv – cs.AI