FuseFlow: Compiler für sparsames Deep Learning auf Streaming‑Datenflüssen

Mit dem neuen Compiler FuseFlow wird die Verarbeitung von sparsamen Deep‑Learning‑Modellen auf reconfigurable Dataflow‑Architekturen (RDAs) revolutioniert. Der Ansatz wandelt PyTorch‑Modelle in optimierte, gefusionierte Datenflussgraphen um, die speziell für sparsames Rechnen ausgelegt sind.

FuseFlow ist der erste Compiler, der eine generelle Cross‑Expression‑Fusion von sparsamen Operationen unterstützt. Neben der Fusion über einzelne Kernel hinweg bietet er weitere Optimierungen wie Parallelisierung, Datenfluss‑Reihenfolge und Sparsity‑Blocking. Dadurch können Modelle effizienter auf Hardware mit Streaming‑Datenflüssen ausgeführt werden.

Der Compiler richtet sich an einen cycle‑accuraten Datenfluss‑Simulator, der die Mikroarchitektur‑Analyse von Fusion‑Strategien ermöglicht. In vier realen Machine‑Learning‑Anwendungen mit hoher Sparsity wurde gezeigt, dass eine vollständige Fusion nicht immer die beste Lösung ist – die optimale Granularität hängt vom jeweiligen Modell ab. FuseFlow liefert zudem einen Heuristik‑Ansatz, um suboptimale Konfigurationen zu identifizieren und zu entfernen.

Durch den Einsatz von FuseFlow konnten bei GPT‑3 mit BigBird block‑sparse attention beeindruckende Leistungssteigerungen erzielt werden: ein Speedup von etwa 2,7‑fach gegenüber einer unfused Baseline. Diese Ergebnisse unterstreichen das Potenzial von FuseFlow, die Effizienz sparsamer Deep‑Learning‑Modelle auf modernen Datenfluss‑Architekturen signifikant zu erhöhen.

Ähnliche Artikel