Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs
Neuer Forschungsbericht auf arXiv zeigt, dass der Optimierer Shampoo, der die Matrixstruktur von neuronalen Netzwerken nutzt, deutlich dateneffizienter arbeitet als elementweise Verfahren wie Adam oder Signum. Durch umfangreiche Experimente mit Sprachmodellen konnte nachgewiesen werden, dass Shampoo im Vergleich zu Muon – einem weiteren Matrix‑Optimierer – eine höhere Token‑Effizienz erzielt, ähnlich wie Adam gegenüber Signum.