SGD sucht nicht nach Flachheit – Daten bestimmen die Schärfe
Ein neues arXiv‑Veröffentlichung (2602.05065v1) beleuchtet die lange diskutierte Frage, ob der klassische Stochastic Gradient Descent (SGD) während des Trainings lieber flache oder scharfe Minima findet. Die Autoren prä…