Turbo-Muon: Preconditionierung beschleunigt orthogonale Optimierung
Orthogonality-basierte Optimierer wie Muon haben in den letzten Monaten beeindruckende Ergebnisse bei groß angelegten Trainingsaufgaben erzielt. Sie setzen jedoch auf einen kostenintensiven Schritt der Gradientenorthogo…