Score-Matching: Globale Konvergenz bei hohem Rauschen
In modernen generativen Modellen, insbesondere in Diffusionsmodellen, dient Score‑Matching als zentrales Trainingsziel. Durch die Schätzung von Score‑Funktionen lernen Modelle hochdimensionale Datenverteilungen. Trotz der praktischen Erfolge fehlt bislang ein umfassendes theoretisches Verständnis der Optimierungsdynamik, vor allem in überparametrisierten Regimen.
Die vorliegende Arbeit untersucht Gradient‑Descent‑Training für ein überparametrisiertes Student‑Modell mit n lernbaren Parametern. Das Modell wird auf Daten trainiert, die aus einer einzigen, wahren Gaußverteilung stammen, und nutzt die Populations‑Score‑Matching‑Zielfunktion. Die Autoren analysieren die Optimierungsdynamik in verschiedenen Rausch‑ und Initialisierungsregimen.
Für große Rauschskalen wird ein globaler Konvergenznachweis erbracht: Gradient‑Descent führt alle Parameter zum wahren Wert. Im niedrigen Rauschbereich existiert ein stationärer Punkt, was die globale Konvergenz erschwert. Dennoch zeigen die Autoren, dass bei exponentiell kleinen Initialwerten alle Parameter zum wahren Wert konvergieren. Ohne diese spezielle Initialisierung kann die Konvergenz zum wahren Wert sogar scheitern.
Schließlich wird die Situation mit zufälliger, aus einer Gaußverteilung entfernten Initialisierung untersucht. Hier beweisen die Autoren, dass mit hoher Wahrscheinlichkeit nur ein Parameter konvergiert, während die übrigen Parameter weit vom wahren Wert bleiben. Diese Ergebnisse liefern neue Einblicke in die Grenzen und Möglichkeiten von Score‑Matching in überparametrisierten Modellen.