Forschung
Normalisierung statt Clipping: Warum SGD bei stark schiefem Rauschen konvergiert
Eine neue theoretische Analyse zeigt, warum die Normalisierung bei stochastisch vorgefertigtem Stochastic Gradient Descent (SPSGD) – und se…
arXiv – cs.LG