SGD sucht nicht nach Flachheit – Daten bestimmen die Schärfe
Ein neues arXiv‑Veröffentlichung (2602.05065v1) beleuchtet die lange diskutierte Frage, ob der klassische Stochastic Gradient Descent (SGD) während des Trainings lieber flache oder scharfe Minima findet. Die Autoren präsentieren ein exakt lösbares Modell, das beiden Verhaltensweisen – Flachheit und Schärfe – gleichzeitig Raum gibt und damit die bisher widersprüchlichen Befunde aufklärt.