JKO-Schema: Wie Wasserstein-Gradient-Flow durch Implicit Bias beeinflusst
Wasserstein‑Gradient‑Flow ist ein mächtiges Werkzeug, um Energie‑Funktionale auf dem Raum der Wahrscheinlichkeitsverteilungen zu minimieren. Die klassische Zeit‑Diskretisierung, das Jordan‑Kinderlehrer‑Otto‑Schema (JKO), liefert für jeden Schrittgrößenparameter η > 0 eine Folge von Dichten ρₖ^η, die den Fluss mit erster Ordnung in η approximieren.
Im Gegensatz zu vielen anderen ersten‑Ordnung‑Integratoren bewahrt das JKO‑Schema wichtige Eigenschaften: Es erhält die Energie‑Dissipation und ist für λ‑geodätisch konvexe Funktionale sogar unverzerrt stabil. Diese Besonderheiten machen das Schema zu einem bevorzugten Ansatz in der optimalen Transport‑ und statistischen Analyse.
Die neue Untersuchung geht einen Schritt weiter und charakterisiert den „Implicit Bias“ des JKO‑Schemas auf zweiter Ordnung in η. Dabei wird gezeigt, dass die Dichten ρₖ^η nicht nur durch den ursprünglichen Energieterm J, sondern durch einen modifizierten Term J^η approximiert werden:
J^η(ρ) = J(ρ) – (η/4) ∫_M ‖∇_g (δJ/δρ)(ρ)‖² ρ(dx). Diese Subtraktion entspricht dem quadrierten metrischen Krümmungsterm von J, gewichtet mit η/4.
Das Ergebnis bedeutet, dass das JKO‑Schema bei zweiter Ordnung eine „Verlangsamung“ in Richtungen einführt, in denen die metrische Krümmung von J stark variiert. Für typische Funktionale zeigt sich dieser Bias konkret: Für die Entropie entspricht er der Fisher‑Information, für die KL‑Divergenz der Fisher‑Hyvärinen‑Divergenz und für riemannische Gradientenabstiegsverfahren dem kinetischen Energieterm in der Metrik g.
Diese Erkenntnis liefert ein tieferes Verständnis dafür, wie das JKO‑Schema nicht nur Energie minimiert, sondern gleichzeitig die Dynamik des Flusses durch einen strukturierten Bias steuert. Das eröffnet neue Perspektiven für die Analyse von Optimierungsalgorithmen im Raum der Wahrscheinlichkeitsverteilungen.