WebGPU-Dispatch-Overhead bei LLM-Inferezen:4 GPU-Hersteller, 3 Backends, 3 Browser
Die Sicherheitsarchitektur von WebGPU verlangt bei jeder Operation eine Validierung, die bei den vielen kleinen Dispatches, die bei der Inferenz von Sprachmodellen auftreten, zu einem erheblichen Overhead führt. In eine…