LLM-Infere Scheduling: Unsicherheitsbewusste Ausgabe-Längenvorhersagen
In der Welt der großen Sprachmodelle (LLMs) ist die effiziente Planung von Inferenzaufgaben entscheidend. Traditionell nutzt man das Prinzip „Shortest Job First“ (SJF), bei dem Anfragen mit kurzer Ausgabelänge bevorzugt…