CUDA-L2: KI-gestützte Optimierung übertrifft cuBLAS bei Matrixmultiplikation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues System namens CUDA‑L2 kombiniert große Sprachmodelle mit Reinforcement‑Learning, um Half‑Precision General Matrix Multiply (HGEMM) CUDA‑Kernels automatisch zu optimieren. Durch die Nutzung der Ausführungszeit als Belohnung für das Lernverfahren kann CUDA‑L2 die Leistung von Matrixmultiplikationen systematisch steigern.

CUDA‑L2 durchsucht mehr als 1.000 mögliche Konfigurationen und wählt diejenige aus, die die höchste Geschwindigkeit erzielt. Dabei werden die Kernels in einer Offline‑Umgebung hintereinander ausgeführt, ohne Zeitabstände, und anschließend in einer Server‑Umgebung mit zufälligen Intervallen, die Echtzeit‑Inference simulieren.

In der Offline‑Phase übertrifft CUDA‑L2 die gängigen Baselines deutlich: durchschnittlich +22,0 % schneller als torch.matmul, +19,2 % gegenüber cuBLAS (bei optimaler Layout‑Konfiguration), +16,8 % gegenüber cuBLASLt‑heuristic und +11,4 % gegenüber dem leistungsstärksten cuBLASLt‑AutoTuning‑Modell. In der Server‑Phase steigen die Geschwindigkeitsgewinne auf +28,7 %, +26,0 %, +22,4 % bzw. +15,9 % für dieselben Baselines.

Die Ergebnisse zeigen, dass selbst die hochoptimierten Kernels wie HGEMM durch KI‑gestützte Reinforcement‑Learning‑Automatisierung weiter verbessert werden können. CUDA‑L2 demonstriert damit, wie moderne Sprachmodelle und Lernalgorithmen die Grenzen der GPU‑Leistung verschieben können.

Ähnliche Artikel