SGD zeigt seltsame Ausrichtung: Schrittgrößenanalyse enthüllt Paradox
In einer neuen Studie wird das Phänomen der „verdächtigen Ausrichtung“ bei Stochastic Gradient Descent (SGD) unter stark ill-konditionierten Optimierungsbedingungen untersucht. Dabei trennt sich das Spektrum der Hessischen Matrix in dominante und Bulk‑Subräume, was die Ausrichtung des Gradienten in den SGD‑Updates stark beeinflusst.
Die Analyse zeigt, dass sich die Ausrichtung des Gradienten zunächst verringert, anschließend wieder ansteigt und schließlich in einem hochausgerichteten Zustand stabilisiert. Paradox ist, dass die Projektion des Gradientenupdates entlang des stark ausgerichteten dominanten Subraums kaum zur Verlustreduktion beiträgt.
Der Beitrag liefert eine feingranulare Schrittgrößenbedingung: In Niedrig‑Ausrichtungs‑Zuständen trennt eine adaptive kritische Schrittgröße den Bereich, in dem die Ausrichtung abnimmt, von dem, in dem sie zunimmt. In Hoch‑Ausrichtungs‑Zuständen korrigiert sich die Ausrichtung selbstständig, unabhängig von der Schrittgröße. Unter ausreichender Ill‑Konditionierung existiert zudem ein Schrittgrößenintervall, in dem die Projektion auf den Bulk‑Subraum den Verlust senkt, während die Projektion auf den dominanten Subraum ihn erhöht – eine Erklärung für jüngste empirische Beobachtungen.