Neues TVM-Modell erzielt Rekord‑FID bei ein- und mehrstufiger Diffusion

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer kürzlich veröffentlichten Arbeit auf arXiv wird das Konzept des Terminal Velocity Matching (TVM) vorgestellt, das die klassische Flow‑Matching‑Methode erweitert und damit hochpräzises generatives Modellieren in nur einer oder wenigen Schritten ermöglicht.

TVM beschreibt den Übergang zwischen beliebigen Diffusion‑Zeitpunkten und reguliert das Modellverhalten am Endzeitpunkt statt am Anfang. Die Autoren zeigen, dass TVM unter der Voraussetzung einer Lipschitz‑kontinuierlichen Modellfunktion eine obere Schranke für die 2‑Wasserstein‑Distanz zwischen Daten- und Modellverteilung liefert. Da Diffusion‑Transformers diese Eigenschaft nicht besitzen, werden minimalistische architektonische Anpassungen eingeführt, die ein stabiles, ein‑Stufen‑Training ermöglichen.

Zur Praxisrelevanz wird ein fusionierter Attention‑Kernel entwickelt, der Rückwärtsdurchläufe über Jacobian‑Vector‑Products unterstützt und sich gut mit Transformer‑Architekturen skalieren lässt. Auf ImageNet‑256×256 erzielt TVM mit nur einer Funktionsauswertung (NFE) einen FID‑Wert von 3,29 und mit vier NFEs sogar 1,99 – ein neuer Maßstab für One‑Step‑Modelle. Bei ImageNet‑512×512 liegen die Ergebnisse bei 4,32 (1‑NFE) bzw. 2,94 (4‑NFE), was die Spitzenleistung von TVM für ein- und mehrstufige Modelle aus dem Grundaufbau bestätigt.

Ähnliche Artikel