Stochastischer Gauss-Newton-Optimierer zeigt neue Generalisierungsgrenzen
In einer aktuellen Veröffentlichung auf arXiv wird ein stochastischer Gauss-Newton-Algorithmus (SGN) vorgestellt, der mit Levenberg–Marquardt‑Dämpfung und Mini‑Batch‑Sampling arbeitet. Der Ansatz richtet sich gezielt an überparametrisierte tiefe neuronale Netze mit glatten Aktivierungsfunktionen im Regressionsbereich.
Die Autoren liefern zwei zentrale theoretische Ergebnisse. Erstens zeigen sie, dass SGN in endlicher Zeit konvergiert, wobei die Laufzeit explizit von der Batchgröße, der Breite und der Tiefe des Netzwerks abhängt. Diese Variable‑Metric‑Analyse liefert klare Grenzwerte, die für die Praxis von unmittelbarem Nutzen sind.
Zweitens führen sie nicht‑asymptotische Generalisierungsgrenzen her, die auf der Uniform‑Stabilität im überparametrisierten Regime beruhen. Dabei wird deutlich, wie die Krümmung des Modells, die Batchgröße und die Überparametrisierung die Generalisierung beeinflussen. Besonders interessant ist die Feststellung, dass ein größerer minimaler Eigenwert der Gauss‑Newton‑Matrix entlang des Optimierungswegs zu strengeren Stabilitätsgrenzen führt.
Die Ergebnisse legen nahe, dass SGN in einem bestimmten Regime besonders gut generalisiert. Dies eröffnet neue Perspektiven für die Entwicklung effizienterer Optimierungsalgorithmen in der Praxis des Deep Learning.