Entstehung von Low‑Rank‑Trainingsdynamiken in MLPs mit glatten Aktivierungen
Ein neues arXiv‑Papier beleuchtet, wie große neuronale Netzwerke während des Trainings in stark reduzierten, niedrigdimensionalen Räumen arbeiten. Die Autoren zeigen, dass die Gewichtsdynamiken von Multi‑Layer‑Perceptrons (MLPs) unter Gradient‑Descent in invariantem, niedrigdimensionalem Unterraum konzentriert bleiben.