vLLM, TensorRT-LLM, HF TGI & LMDeploy: Vergleich für produktiven LLM-Inferring
Die Bereitstellung von großen Sprachmodellen in der Produktion ist heute ein komplexes Systemproblem, das weit über das einfache Aufrufen von generate() hinausgeht. Für echte Arbeitslasten entscheidet die Wahl des Inferenz-Stacks maßgeblich über die Tokens pro Sekunde, die Endlatenz und letztlich die Kosten pro Million Tokens auf einer gegebenen GPU-Flotte.