Gradienten in Deep Learning: Vorhersagbare Pfade und niedrige Rangstruktur

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Optimierung von Deep‑Learning‑Modellen weist eine Struktur auf, die klassische Worst‑Case‑Gradienten­schätzungen nicht erfassen. In der Praxis zeigen die Gradienten entlang der Trainingspfade häufig eine starke temporäre Vorhersagbarkeit und bewegen sich innerhalb eines niedrigdimensionalen Unterraums.

In dem neuen arXiv‑Beitrag wird dieses Phänomen formalisiert. Die Autoren führen zwei messbare Größen ein: die prediction‑based path length, die angibt, wie gut Gradienten aus vergangenen Informationen vorhergesagt werden können, und die predictable rank, die die intrinsische temporäre Dimension der Gradienten­inkremente quantifiziert.

Durch diese neuen Messgrößen lassen sich klassische Online‑ und nicht‑konvexe Optimierungsgarantien neu formulieren. Konvergenz und Regret hängen nun explizit von der path length und dem predictable rank ab, anstatt von Worst‑Case‑Variationen. Damit wird die Komplexität des Optimierungsproblems in einem realistischeren Rahmen beschrieben.

Die Experimente erstrecken sich über Convolutional Networks, Vision Transformers, Sprachmodelle und synthetische Kontrollaufgaben. In allen Fällen zeigen die Gradienten­trajektorien lokale Vorhersagbarkeit und eine starke Low‑Rank‑Struktur. Diese Eigenschaften sind über verschiedene Architekturen und Optimierer hinweg stabil und lassen sich direkt aus geloggten Gradienten mittels leichter Random‑Projection‑Techniken diagnostizieren.

Die Ergebnisse bieten einen einheitlichen Blick auf die Optimierungsdynamik moderner Deep‑Learning‑Modelle. Sie eröffnen neue Perspektiven für adaptive Optimizer, rank‑aware Tracking und algorithmisches Design, das auf messbaren Eigenschaften echter Trainingsläufe basiert.

Ähnliche Artikel