Forschung
TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer
Muons, eine Familie von Optimierern, nutzt Newton-Schulz-Iteration, um die Update-Schritte zu orthogonalisieren. Dadurch entsteht eine nahe…
arXiv – cs.LG