AdaGram: Vollmatrix-Optimierer mit Low‑Rank‑Approximation beschleunigt ML‑Training

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Welt der großen Datenmodelle sind adaptive Gradient‑Methoden wie Adagrad weit verbreitet, doch ihre diagonalen Präconditioner lassen Parameter‑Korrelationen ungenutzt. AdaGram, ein neuer Optimierer, nutzt stattdessen eine Vollmatrix‑Ansatz, um diese Zusammenhänge zu erfassen und die Konvergenz zu beschleunigen.

Der Schlüssel zu AdaGram ist die effiziente Symmetrische Faktorisierung, die die Berechnung der präconditionierten Update‑Richtung in jeder Iteration deutlich reduziert. Zusätzlich wird die Low‑Rank‑Struktur des Präconditioners mithilfe von Matrix‑Integrator‑Methoden entlang des Optimierungsverlaufs beibehalten, wodurch Speicher- und Rechenaufwand minimiert werden.

Experimentelle Tests auf Standard‑Machine‑Learning‑Aufgaben zeigen, dass AdaGram bei Rang‑Fünf‑Approximationen schneller konvergiert oder die Leistung diagonaler adaptiver Optimierer erreicht. Damit demonstriert AdaGram sein Potenzial als skalierbare Lösung für adaptive Optimierung in großen Modellen.

Ähnliche Artikel