LDLT‑Lipschitz‑Netzwerke: Neue Initialisierung steigert Ausgabeverteilung

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Eine neue Analyse aus dem arXiv‑Pape 2601.08253v1 untersucht die Initialisierungsdynamik von LDLT‑basierten L‑Lipschitz‑Schichten. Dabei wird die exakte marginale Ausgabeverteilung berechnet, wenn die Parameter­matrix \(W_0\in\mathbb{R}^{m\times n}\) mit unabhängigen, identisch verteilten Gauß‑Werten \(\mathcal{N}(0,\sigma^2)\) initialisiert wird.

Der zugrunde liegende Wishart‑Zustand \(S=W_0W_0^\top\sim\mathcal{W}_m(n,\sigma^2\boldsymbol{I}_m)\) ermöglicht die exakte Berechnung der Ausgabeverteilung. Durch die Anwendung von James’ Theorem auf zonale Polynome und einer Laplace‑Integral‑Expansion von \((\alpha\boldsymbol{I}_m+S)^{-1}\) wird die Verteilung in geschlossener Form dargestellt. Zusätzlich wird eine Isserlis/Wick‑basierte kombinatorische Erweiterung für \(\mathbb{E}[\operatorname{tr}(S^k)]\) entwickelt, wobei die Momente bis \(k=10\) exakt berechnet werden. Diese truncierten Reihen liefern für kleine bis moderate \(\sigma^2\) sehr genaue Approximationen, die durch Monte‑Carlo‑Simulationen bestätigt werden.

Ein empirischer Vergleich zeigt, dass die gängigen He‑ bzw. Kaiming‑Initialisierungen mit der Skalierung \(1/\sqrt{n}\) zu einer Ausgabeverteilung von 0,41 führen. Die neue Parameterisierung mit \(10/\sqrt{n}\) für \(\alpha=1\) erhöht die Varianz auf 0,9. Diese Ergebnisse erklären, warum tiefe L‑Lipschitz‑Netzwerke bei der Initialisierung schnell Informationen verlieren, und liefern konkrete Empfehlungen zur Wahl der Initialisierungs­hyperparameter, um diesen Effekt zu mildern.

Zur Validierung wurden Hyperparameter‑Suchen über Optimierer, Initialisierungs­skalen und Netzwerk­tiefe auf dem Higgs‑Boson‑Klassifikationsdatensatz durchgeführt. Die experimentellen Resultate stimmen mit den theoretischen Vorhersagen überein und zeigen, dass die neue Initialisierung auch in realen Anwendungen die Leistung verbessert.

Ähnliche Artikel