CurvaDion: Dynamische Synchronisation reduziert Kommunikation um 99 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem exponentiellen Wachstum von Sprachmodellen auf Billionen von Parametern wird das verteilter Training über zahlreiche GPUs unverzichtbar. Trotz hochleistungsfähiger Netzwerke bleibt die Synchronisation der Gradienten ein entscheidender Engpass. Aktuelle Ansätze wie Dion senken die Kommunikationskosten pro Schritt, synchronisieren jedoch jedes Mal, unabhängig von der aktuellen Optimierungslandschaft.

CurvaDion erkennt, dass die Synchronisationsanforderungen während des Trainings stark variieren. In flachen Regionen berechnen die Worker ähnliche Gradienten, sodass häufige Synchronisationen überflüssig sind. In hochkrümmenden Bereichen hingegen ist eine enge Koordination nötig, um Divergenzen zu verhindern. Das Verfahren nutzt die Relative Maximum Momentum Change (RMMC), ein bereits während der Optimierung berechnetes Momentum-Dynamik-Maß, um diese kritischen Regionen zu identifizieren.

RMMC dient als rechnerisch leichtgewichtiger Proxy für die Richtungskrümmung und erfordert lediglich O(d) Operationen pro Layer. Theoretische Analysen zeigen die Verbindung zwischen RMMC und der Verlustkrümmung auf, während experimentelle Ergebnisse belegen, dass CurvaDion die Kommunikation um 99 % reduziert und gleichzeitig die Konvergenzleistung von Modellen mit 160 M bis 1,3 B Parametern beibehält.

Ähnliche Artikel