AdaGram: Vollmatrix-Optimierer mit Low‑Rank‑Approximation beschleunigt ML‑Training
In der Welt der großen Datenmodelle sind adaptive Gradient‑Methoden wie Adagrad weit verbreitet, doch ihre diagonalen Präconditioner lassen Parameter‑Korrelationen ungenutzt. AdaGram, ein neuer Optimierer, nutzt stattde…