Forschung
SGD enthüllt: Wie Rauschen die Feature‑Lernphase in Deep Linear Networks steuert
In einer neuen Studie auf arXiv wird gezeigt, dass das Rauschen von Stochastic Gradient Descent (SGD) wichtige Hinweise auf den Lernfortsch…
arXiv – cs.LG