UNSO: Neue, stabile Newton-Schulz-Optimierung für effiziente Matrixberechnungen
Die Newton-Schulz-Iteration hat sich in den letzten Jahren als Schlüsselverfahren für den Muon-Optimizer und die Arbeit mit dem Stiefel-Mannigfaltigkeit etabliert. Trotz ihrer Popularität leiden die klassischen Variante…