WebGPU-Dispatch-Overhead bei LLM-Inferezen:4 GPU-Hersteller, 3 Backends, 3 Browser
Die Sicherheitsarchitektur von WebGPU verlangt bei jeder Operation eine Validierung, die bei den vielen kleinen Dispatches, die bei der Inferenz von Sprachmodellen auftreten, zu einem erheblichen Overhead führt. In eine…
- Die Sicherheitsarchitektur von WebGPU verlangt bei jeder Operation eine Validierung, die bei den vielen kleinen Dispatches, die bei der Inferenz von Sprachmodellen auftr…
- In einer systematischen Untersuchung wurde dieser Overhead bislang kaum quantifiziert.
- Die Studie deckt vier GPU-Hersteller (NVIDIA, AMD, Apple, Intel), zwei native Implementierungen (Dawn, wgpu‑native) sowie drei Browser (Chrome, Safari, Firefox) ab.
Die Sicherheitsarchitektur von WebGPU verlangt bei jeder Operation eine Validierung, die bei den vielen kleinen Dispatches, die bei der Inferenz von Sprachmodellen auftreten, zu einem erheblichen Overhead führt. In einer systematischen Untersuchung wurde dieser Overhead bislang kaum quantifiziert.
Die Studie deckt vier GPU-Hersteller (NVIDIA, AMD, Apple, Intel), zwei native Implementierungen (Dawn, wgpu‑native) sowie drei Browser (Chrome, Safari, Firefox) ab. Zusätzlich wurden zwei Modellgrößen (Qwen2.5‑0.5B und 1.5B) bei einer Batch‑Größe von eins getestet, und die Tests wurden auf Linux, Windows und macOS durchgeführt.
Durch eine neue „sequential‑dispatch“-Methodik zeigte sich, dass herkömmliche Einzeloperationen den Dispatch‑Kosten um etwa 20‑mal überschätzen. Der reine WebGPU‑API‑Overhead liegt bei Vulkan bei 24–36 µs und bei Metal bei 32–71 µs. Wenn die Python‑Verarbeitung mit einbezogen wird, beträgt die Gesamtkosten pro Operation rund 95 µs – ein entscheidender Faktor für Optimierungen.
Kernel‑Fusion auf Vulkan erhöht die Durchsatzrate um 53 %, während CUDA‑Fusion keinen Nutzen bringt. Damit wird klar, dass der per‑Operation‑Overhead der Hauptunterschied zwischen den Plattformen ist.
Für die LLM‑Inference wurde ein eigener PyTorch‑Backend namens torch-webgpu sowie ein FX‑zu‑WebGPU‑Compiler entwickelt. Auf dem Referenzsystem erreicht WebGPU lediglich 11–12 % der CUDA‑Leistung. Bei float32‑Daten liefert die RTX PRO 2000 sogar 1,4‑mal mehr Durchsatz als WebGPU, obwohl sie etwa sechsmal weniger Rechenleistung besitzt.
Die Ergebnisse zeigen, dass die Wahl des Backends den Dispatch‑Overhead maßgeblich bestimmt. Diese Erkenntnisse sind entscheidend für Entwickler, die WebGPU für effiziente Sprachmodell‑Inference einsetzen wollen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.