Schedule-Free: Theorie erweitert – Optimale Lernraten für beliebige Scheduler
Eine neue Veröffentlichung auf arXiv erweitert die theoretische Basis des bislang beliebten Schedule‑Free-Ansatzes. Während die ursprüngliche Theorie nur einen konstanten Lernratenwert zuließ, zeigen die Autoren, wie die letzte‑Iterat-Konvergenz auch bei beliebigen Scheduler‑Strategien bewiesen werden kann. Dabei wird das notwendige Update des Averaging‑Parameters als Funktion der Lernrate klar definiert.
Die Autoren führen umfangreiche Experimente durch, die belegen, dass die erweiterte Theorie auch in der Praxis Vorhersagekraft besitzt – selbst wenn die zugrunde liegende Annahme der Konvexität nicht strikt erfüllt ist. Besonders hervorzuheben ist die Analyse des Warm‑up‑Stable‑Decay‑Schedulers, bei dem die Theorie eine optimale Konvergenzrate von O(1/√T) liefert.
Auf Basis dieser Erkenntnisse entwerfen die Forscher einen neuen adaptiven Polyak‑Lernraten‑Scheduler. Sie beweisen, dass dieser Scheduler eine optimale „anytime“ letzte‑Iterat‑Konvergenz erreicht und demonstrieren in einem Black‑Box‑Model‑Distillation‑Task, dass er gegenüber mehreren Baselines hervorragende Ergebnisse erzielt.