AutoSAGE: CUDA‑Scheduler für Sparse GNN Aggregation optimiert GPU‑Leistung
Die neue Methode AutoSAGE, veröffentlicht auf arXiv, bietet einen Eingabe‑sensiblen CUDA‑Scheduler für Sparse GNN‑Aggregationen wie CSR SpMM und SDDMM. Durch eine leichte Schätzung, die mit Mikro‑Proben direkt auf dem Gerät verfeinert wird, wählt AutoSAGE pro Eingabe die optimale Tiling‑ und Mapping‑Strategie. Ein Sicherheitsmechanismus sorgt dafür, dass bei Bedarf auf die Standard‑Kernels des GPU‑Herstellers zurückgegriffen wird, während ein persistenter Cache deterministische Wiedergaben ermöglicht.
AutoSAGE deckt sowohl SpMM als auch SDDMM ab und lässt sich nahtlos in einen CSR‑Attention‑Pipeline (SDDMM → Zeilen‑Softmax → SpMM) integrieren. In realen Benchmarks auf Reddit‑ und OGBN‑Products‑Datensätzen erreicht die Lösung die Leistung der Vendor‑Kernels bei breiten Feature‑Breiten und erzielt zusätzliche Gewinne bei kleineren Breiten. In synthetischen Tests mit hoher Sparsität und Schiefe erzielt AutoSAGE bis zu 4,7‑fach schnellere Kernel‑Leistungen.
Die Autoren stellen den CUDA‑Quellcode, Python‑Bindings, einen reproduzierbaren Test‑Harness sowie wiederholbare Cache‑Logs frei, sodass Entwickler die Technik sofort in ihre Projekte integrieren können.