AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die Optimierung von Large Language Model (LLM)-Inference in Produktionsumgebungen wird immer komplexer. Dynamische Arbeitslasten, strenge Latenz- und Durchsatzziele sowie ein sich ständig erweiterndes Konfigurationsspektrum stellen Entwickler vor enorme Herausforderungen.

Der Schwierigkeitsgrad liegt nicht nur in der Auswahl von verteilten Parallelisierungsstrategien – Tensor, Pipeline oder Expert – sondern auch in der Feinabstimmung von framework-spezifischen Laufzeitparametern. Dazu gehören die Aktivierung von CUDA‑Graphs, die Aufteilung des KV‑Cache‑Speichers und die maximale Tokenkapazität, die alle die Performance stark beeinflussen.

Moderne Inferenzframeworks wie TRT‑LLM, vLLM und SGLang nutzen unterschiedliche Kerne und Ausführungsrichtlinien. Diese Vielfalt macht ein manuelles Tuning zu einem framework‑spezifischen, rechenintensiven Prozess, der in der Praxis kaum praktikabel ist.

AIConfigurator löst dieses Problem mit einem einheitlichen Performance‑Modellierungs‑System. Es ermöglicht eine schnelle, framework‑agnostische Konfigurationssuche, ohne dass GPU‑Profiling erforderlich ist.

Die Funktionsweise beruht auf drei Säulen: Erstens zerlegt AIConfigurator die Inferenz in analytisch modellierbare Bausteine – GEMM, Attention, Kommunikation und Speicheroperationen – und erfasst dabei die spezifischen Scheduling‑Dynamiken der einzelnen Frameworks. Zweitens nutzt es eine kalibrierte, kernelleistungsbasierte Datenbank, die für eine breite Palette von Hardwareplattformen und populären Open‑Weight‑Modellen (GPT‑OSS, Qwen, DeepSeek, LLama, Mistral) erstellt wurde. Drittens bietet eine Abstraktionsschicht, die automatisch die optimalen Launch‑Parameter für das Ziel‑Backend bestimmt und sich nahtlos in produktionsreife Orchestrierungssysteme integriert.

In Evaluierungen mit realen LLM‑Serving‑Workloads zeigte AIConfigurator signifikante Verbesserungen bei Latenz und Durchsatz. Die automatisierte Konfiguration spart nicht nur Zeit, sondern reduziert auch die Kosten für manuelle Experimente und GPU‑Profiling.

Mit AIConfigurator erhalten Unternehmen ein leistungsstarkes Werkzeug, das die Komplexität der LLM‑Inference-Optimierung reduziert und die Einführung neuer Modelle in produktive Umgebungen beschleunigt.

Ähnliche Artikel