SGD nutzt transienten Lernfluss, um scharfe Täler zu verlassen
Stochastische Gradientenabstiegsverfahren (SGD) bilden das Herzstück moderner Deep‑Learning‑Modelle. Trotz ihrer weiten Verbreitung bleibt unklar, warum SGD‑Training häufig zu flacheren, besser generalisierbaren Lösunge…