Forschung
AdaGram: Vollmatrix-Optimierer mit Low‑Rank‑Approximation beschleunigt ML‑Training
In der Welt der großen Datenmodelle sind adaptive Gradient‑Methoden wie Adagrad weit verbreitet, doch ihre diagonalen Präconditioner lassen…
arXiv – cs.AI