Forschung
SGD sucht nicht nach Flachheit – Daten bestimmen die Schärfe
Ein neues arXiv‑Veröffentlichung (2602.05065v1) beleuchtet die lange diskutierte Frage, ob der klassische Stochastic Gradient Descent (SGD)…
arXiv – cs.LG