Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training
In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu Adam durch eine abgekoppelte Gewichtungsabklingung bessere Ergebnisse erzielt…
- In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle.
- Während AdamW im Vergleich zu Adam durch eine abgekoppelte Gewichtungsabklingung bessere Ergebnisse erzielt, wurde diese Abklingung traditionell als proportional zur Ler…
- Kürzlich haben Forscher diese Annahme hinterfragt und argumentiert, dass die Abklingung stattdessen proportional zu γ² sein sollte.
In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu Adam durch eine abgekoppelte Gewichtungsabklingung bessere Ergebnisse erzielt, wurde diese Abklingung traditionell als proportional zur Lernrate γ festgelegt. Kürzlich haben Forscher diese Annahme hinterfragt und argumentiert, dass die Abklingung stattdessen proportional zu γ² sein sollte.
Die Autoren zeigen, dass das Weglassen der senkrechten Komponente des Updates nur geringe Auswirkungen auf die Trainingsdynamik hat. Stattdessen führen sie aus, dass eine γ²‑Abklingung zu einer stabilen Gewichtsnorm führt, wenn man annimmt, dass die Updates im Gleichgewicht unabhängig von den Gewichten werden – unabhängig vom Optimierer. Diese Theorie wird durch Experimente bestätigt.
Weiterhin wird die Gesamtupdatebeitrag (TUC) eines Mini‑Batches im Scion‑Optimierer als besser beschrieben durch einen momentumabhängigen effektiven Lernrate. Die Ergebnisse demonstrieren, dass γ²‑Abklingung stabile Gewicht- und Gradientennormen erzeugt, die Trainingsdynamik besser kontrolliert und die Modellleistung verbessert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.