Muon²: Schnellere Optimierung großer Modelle durch adaptives Preconditioning
In der Welt des maschinellen Lernens hat sich der Optimierer Muon als vielversprechende Lösung für das Pre‑Training großer Basismodelle etabliert. Durch die Ausnutzung der Matrixstruktur neuronaler Netzwerkupdates und d…