Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training
In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu Adam durch eine abgekoppelte Gewichtungsabklingung bessere Ergebnisse erzielt…