Stabilitätsanalyse von SAM und SGD: Datenkohärenz & Einfachheitsbias

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv-Papier beleuchtet die Dynamik von Optimierungsalgorithmen in tiefen neuronalen Netzen und liefert wichtige Erkenntnisse für die Praxis des maschinellen Lernens.

Während Stochastic Gradient Descent (SGD) und seine Varianten zuverlässig Lösungen finden, die gut generalisieren, bleibt die genaue Mechanik hinter dieser Generalisierung weitgehend ungeklärt. Besonders auffällig ist, dass diese Algorithmen häufig flache oder einfache Minima bevorzugen, ein Phänomen, das in überparametrisierten Modellen besonders stark ausgeprägt ist.

Das vorgestellte Werk entwickelt einen linearen Stabilitätsrahmen, der das Verhalten von SGD, zufälligen Störungen und dem Sharpness-Aware Minimization (SAM)-Algorithmus in zweischichtigen ReLU-Netzen analysiert. Durch diesen Ansatz wird die Dynamik der Optimierung auf einer mathematisch fundierten Basis untersucht.

Zentral für die Analyse ist ein Kohärenzmaß, das quantifiziert, wie die Gradientenkrümmung über die Datenpunkte hinweg ausgerichtet ist. Dieses Maß liefert einen klaren Einblick, warum bestimmte Minima stabil bleiben und während des Trainings bevorzugt werden.

Die Ergebnisse erklären, warum flache oder einfache Minima im Training stabil bleiben und warum SAM, das explizit Flachheit fördert, ähnliche Ergebnisse erzielt. Damit bietet das Papier einen ersten Schritt zu einer einheitlichen Theorie, die Datenstruktur, Optimierungsdynamik und die Art der erlernten Lösungen miteinander verbindet.

Ähnliche Artikel