GPA: Generalisierte Primal‑Averaging beschleunigt LLM‑Training ohne Mehrloop

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Veröffentlichung auf arXiv wird Generalized Primal Averaging (GPA) vorgestellt, ein Verfahren, das die Optimierung von großen Sprachmodellen (LLMs) deutlich beschleunigt. GPA baut auf Nesterovs Methode der primalen Mittelung auf und löst die Schwächen der aktuellen, auf Mittelung basierenden Optimierer wie DiLoCo und Schedule‑Free.

DiLoCo nutzt eine periodische Mittelung, die einen zusätzlichen Schleifenaufbau erfordert und dadurch Speicherbedarf sowie die Anzahl der Hyperparameter erhöht. Schedule‑Free dagegen hält einen einheitlichen Durchschnitt vergangener Gewichte fest. GPA trennt die Interpolationskonstante in der primalen Mittelung von Nesterov, sodass die Mittelung bei jedem Schritt glatt erfolgt. Dadurch entfällt die doppelte Schleife, die Hyperparameteroptimierung vereinfacht sich und der Speicherverbrauch reduziert sich auf ein einziges zusätzliches Puffer.

Die experimentellen Ergebnisse sind überzeugend: Auf dem Llama‑160M Modell erreicht GPA einen 24,22 %igen Geschwindigkeitszuwachs in Bezug auf die Schritte, die nötig sind, um den Validierungsverlust von AdamW zu erreichen. Für die ImageNet‑ViT‑Aufgabe liefert GPA bei kleinen und großen Batches Geschwindigkeitssteigerungen von 12 % bzw. 27 %, um die gleiche Validierungsgenauigkeit wie AdamW zu erzielen.

Zusätzlich zeigen die Autoren eine theoretische Beweislage, die die Stabilität und Effizienz von GPA unterstreicht. Diese Fortschritte machen GPA zu einer vielversprechenden Alternative für das Training von LLMs, die sowohl schneller als auch ressourcenschonender ist als die bisherigen Mittelungsoptimierer.

Ähnliche Artikel