Forschung
SGD nutzt transienten Lernfluss, um scharfe Täler zu verlassen
Stochastische Gradientenabstiegsverfahren (SGD) bilden das Herzstück moderner Deep‑Learning‑Modelle. Trotz ihrer weiten Verbreitung bleibt…
arXiv – cs.LG