SGD enthüllt: Wie Rauschen die Feature‑Lernphase in Deep Linear Networks steuert
In einer neuen Studie auf arXiv wird gezeigt, dass das Rauschen von Stochastic Gradient Descent (SGD) wichtige Hinweise auf den Lernfortschritt von Merkmalen in Deep Linear Networks (DLNs) liefert, ohne die grundlegende…