Forschung
Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum
Die neuesten Forschungsergebnisse zeigen, dass die Optimierungsstrategie Muon die Vortrainingsphase großer Sprachmodelle deutlich beschleun…
arXiv – cs.LG