Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum
Die neuesten Forschungsergebnisse zeigen, dass die Optimierungsstrategie Muon die Vortrainingsphase großer Sprachmodelle deutlich beschleunigt. Durch orthogonale Momentum-Updates, die einer Matrix-Variante des elementwe…