Forschung
Neuer Skalierungsgesetz für Lernrate und Verlust in Deep Learning
Deep Learning arbeitet mit einem nicht-konvexen Verlustlandscape, doch die Optimierungsdynamik zeigt sich empirisch konvexartig. In dieser…
arXiv – cs.LG