Forschung
Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung
Der Muon-Optimierer hat bereits bei der Vortrainierung großer Sprachmodelle vielversprechende Ergebnisse erzielt, indem er Gradienten (oder…
arXiv – cs.LG