GPA: Generalisierte Primal‑Averaging beschleunigt LLM‑Training ohne Mehrloop
In einer neuen Veröffentlichung auf arXiv wird Generalized Primal Averaging (GPA) vorgestellt, ein Verfahren, das die Optimierung von großen Sprachmodellen (LLMs) deutlich beschleunigt. GPA baut auf Nesterovs Methode der primalen Mittelung auf und löst die Schwächen der aktuellen, auf Mittelung basierenden Optimierer wie DiLoCo und Schedule‑Free.