Gradienten in Deep Learning: Vorhersagbare Pfade und niedrige Rangstruktur
Die Optimierung von Deep‑Learning‑Modellen weist eine Struktur auf, die klassische Worst‑Case‑Gradientenschätzungen nicht erfassen. In der Praxis zeigen die Gradienten entlang der Trainingspfade häufig eine starke temporäre Vorhersagbarkeit und bewegen sich innerhalb eines niedrigdimensionalen Unterraums.