PolyKAN: Effiziente GPU-Operatoren für Polynom-KAN-Varianten
Die neue Bibliothek PolyKAN bringt Kolmogorov‑Arnold‑Netze (KANs) endlich in die Praxis. KANs versprechen eine höhere Ausdruckskraft und bessere Interpretierbarkeit als herkömmliche Multi‑Layer‑Perzeptrons, sind aber bislang wegen schlechter GPU‑Nutzung kaum einsetzbar gewesen. PolyKAN löst dieses Problem, indem es die Vorwärts‑ und Rückwärtsdurchläufe von polynomiellen KAN‑Schichten in kompakte, optimierte CUDA‑Kernels zusammenfasst.
Vier Kerntechniken bilden die Basis: Erstens ersetzt eine Lookup‑Tabelle mit linearer Interpolation aufwendige Laufzeit‑Funktionen. Zweitens nutzt 2‑D‑Tiling Thread‑Level‑Parallelität aus und erhält gleichzeitig die Speicher‑Lokalisierung. Drittens wandelt ein zweistufiges Reduktionsschema atomare Updates in einen einzigen, kontrollierbaren Merge‑Schritt um. Viertens sorgt die Neuanordnung der Koeffizienten‑Layout‑Reihenfolge für sequentielle Lesezugriffe im Tiling‑Plan.
In einem Test mit dem Chebyshev‑KAN‑Modell erzielte PolyKAN eine Beschleunigung von 1,2 bis 10‑fach bei der Inferenz und 1,4 bis 12‑fach bei der Schulung im Vergleich zu einem Triton‑plus‑cuBLAS‑Baseline. Dabei blieb die Genauigkeit bei Aufgaben aus Sprach-, Audio‑Verstärkungs‑ und tabellarischer Regressionsanalyse unverändert, sowohl auf High‑End‑GPUs als auch auf Konsumenten‑GPUs.