Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training
In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu Adam durch eine abgekoppelte Gewichtungsabklingung bessere Ergebnisse erzielt, wurde diese Abklingung traditionell als proportional zur Lernrate γ festgelegt. Kürzlich haben Forscher diese Annahme hinterfragt und argumentiert, dass die Abklingung stattdessen proportional zu γ² sein sollte.
Die Autoren zeigen, dass das Weglassen der senkrechten Komponente des Updates nur geringe Auswirkungen auf die Trainingsdynamik hat. Stattdessen führen sie aus, dass eine γ²‑Abklingung zu einer stabilen Gewichtsnorm führt, wenn man annimmt, dass die Updates im Gleichgewicht unabhängig von den Gewichten werden – unabhängig vom Optimierer. Diese Theorie wird durch Experimente bestätigt.
Weiterhin wird die Gesamtupdatebeitrag (TUC) eines Mini‑Batches im Scion‑Optimierer als besser beschrieben durch einen momentumabhängigen effektiven Lernrate. Die Ergebnisse demonstrieren, dass γ²‑Abklingung stabile Gewicht- und Gradientennormen erzeugt, die Trainingsdynamik besser kontrolliert und die Modellleistung verbessert.