CurvaDion: Dynamische Synchronisation reduziert Kommunikation um 99 %
Mit dem exponentiellen Wachstum von Sprachmodellen auf Billionen von Parametern wird das verteilter Training über zahlreiche GPUs unverzichtbar. Trotz hochleistungsfähiger Netzwerke bleibt die Synchronisation der Gradienten ein entscheidender Engpass. Aktuelle Ansätze wie Dion senken die Kommunikationskosten pro Schritt, synchronisieren jedoch jedes Mal, unabhängig von der aktuellen Optimierungslandschaft.