Forschung
Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training
In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu…
arXiv – cs.LG