Verbesserte Conditional VAE dank Normalizing Flows

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Bis 2022 galten Variational Autoencoders (VAEs) und Generative Adversarial Networks (GANs) als die führenden generativen Modelle. Seitdem haben Diffusionsmodelle die Spitzenposition übernommen und die Weiterentwicklung traditioneller Ansätze verlangsamt. In diesem Kontext untersucht die neue Studie die Bildgenerierung mit Conditional Variational Autoencoders (CVAE), um gezielt Attribute in die erzeugten Bilder einzubinden.

VAEs sind dafür bekannt, unscharfe Bilder mit begrenzter Vielfalt zu produzieren. Die Autoren schlagen vor, die Varianz des Gauß‑Dekoders als lernbaren Parameter während des Trainings zu behandeln, um diese Schwächen zu mildern. Darüber hinaus zeigen sie, dass die Annahme, die bedingte Verteilung des latenten Raums sei gleich der Priorverteilung, in der Praxis nicht zutrifft.

Durch die Schätzung dieser bedingten Verteilung mit Normalizing Flows erzielen die Forscher eine signifikante Verbesserung der Bildqualität: Der Fréchet Inception Distance (FID) sinkt um 5 % und die Log‑Likelihood steigt um 7,7 % im Vergleich zu bisherigen Methoden. Diese Ergebnisse unterstreichen das Potenzial von Normalizing Flows zur Optimierung von Conditional VAEs.

Ähnliche Artikel