CUDABench: Neuer Benchmark für LLMs bei Text-zu-CUDA-Generierung
In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam CUDABench, einen umfassenden Benchmark, der die Fähigkeit von Large Language Models (LLMs) zur Generierung von CUDA-Code aus reinem Text bewertet. Während bisherige Benchmarks sich auf die Übersetzung von Hochsprachen in CUDA konzentrierten, adressiert CUDABench die anspruchsvollere Aufgabe der Text-zu-CUDA-Generierung.
Der Benchmark besteht aus dem CUDABench-Set, das ein breites Spektrum an Anwendungsdomänen – von künstlicher Intelligenz über wissenschaftliches Rechnen bis hin zu Datenanalyse – abdeckt und dabei sowohl Breite, Tiefe als auch Schwierigkeitsgrad berücksichtigt. Ergänzt wird das Set durch den CUDABench-Score und eine Generative Verification Pipeline, die drei zentrale Kriterien prüfen: die Korrektheit der Kompilierung, die funktionale Konsistenz durch Ausführungsverifikation und ein neuartiges, roofline-basiertes Performance-Score.
Die ersten Tests mit führenden LLMs zeigen aufschlussreiche Ergebnisse: Trotz hoher Kompilierungserfolgsraten bleiben die funktionale Korrektheit und die effiziente Nutzung der GPU-Ressourcen hinter den Erwartungen zurück. Zudem fehlt den Modellen oft das spezifische algorithmische Wissen, das für optimale CUDA-Implementierungen erforderlich ist.
Der CUDABench ist frei verfügbar unter https://github.com/CUDA-Bench/CUDABench und bietet Forschern sowie Entwicklern ein wertvolles Werkzeug, um die Fortschritte im Bereich der KI-gestützten GPU-Programmierung zu messen und weiter zu verbessern.