Neuer Ansatz: Prozess-Tensor-Tomographie von SGD zeigt nicht-Markovianes Gedächtnis

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung wird das Training von neuronalen Netzen als Prozess‑Tensor beschrieben – ein mehrzeitlicher Abbildungskonzept, das jede Folge von kontrollierbaren Instrumenten (Batch‑Auswahl, Augmentierungen, Optimizer‑Micro‑Schritte) in ein beobachtbares Ergebnis des Modells überführt. Dieser operationale Blick eröffnet die Möglichkeit, das Gedächtnis des Trainingsprozesses systematisch zu messen.

Der Kern des Beitrags ist ein modellunabhängiger Zeuge für Trainings‑Gedächtnis, der auf dem „Back‑Flow von Unterscheidbarkeit“ basiert. In einem kontrollierten Zwei‑Schritt‑Protokoll werden die Ergebnisverteilungen nach einer Intervention und nach zwei Interventionen verglichen. Ein positiver Unterschied ΔBF > 0, gemessen mit Totalvariations-, Jensen‑Shannon‑ oder Hellinger‑Distanz auf Softmax‑Vorhersagen eines festen Probe‑Sets, bestätigt die Nicht‑Markovianität des Prozesses.

Die Autoren berichten konsistente positive Back‑Flows mit engen Bootstrap‑Konfidenzintervallen. Der Effekt wird durch höhere Momentum‑Werte, größere Batch‑Überlappungen und mehr Micro‑Schritte verstärkt, verschwindet jedoch, wenn ein „causaler Bruch“ – das Zurücksetzen des Optimizer‑Zustands – durchgeführt wird. Damit wird eindeutig nachgewiesen, dass das beobachtete Gedächtnis auf Optimizer‑ und Daten­zuständen beruht.

Der Zeuge ist robust gegenüber verschiedenen Distanzmaßen, kostengünstig zu berechnen und erfordert keine Änderungen an der Netzwerkarchitektur. Als Messbeitrag liefert er ein principielles Diagnoseinstrument und empirische Belege dafür, dass praktisches SGD die Markov‑Idealisierung verletzt. In einer explorativen Fallstudie wird gezeigt, wie das Mikro‑Signal zur Optimierung von Curriculum‑Ordnen genutzt werden kann. „Daten­reihenfolge zählt“ wird so zu einem testbaren Operator mit Konfidenzgrenzen, und das vorgestellte Framework schafft eine gemeinsame Plattform, um Optimizer, Curricula und Schedules anhand ihres induzierten Trainings‑Gedächtnisses zu vergleichen.

Ähnliche Artikel