Konfidenzfilterung enthüllt latente Strukturen in Diffusionsmodellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Diffusionsmodelle bauen auf einem hochdimensionalen latenten Raum aus zufälligem Rauschen. Ob dieser Raum jedoch genügend Struktur besitzt, um Eigenschaften der erzeugten Bilder – etwa deren Klassen – vorherzusagen, blieb bislang unklar.

In der vorliegenden Studie wird die Entstehung latenter Strukturen mithilfe der Konfidenzwerte eines vortrainierten Klassifikators untersucht. Dabei werden die Rauschseed‑Varianten, die zu hochsicheren Klassifikationen führen, besonders betrachtet.

Die Ergebnisse zeigen, dass der gesamte latente Raum zunächst weitgehend unstrukturiert wirkt. Sobald jedoch nur die Rauschseed‑Varianten mit hoher Klassifikationskonfidenz einbezogen werden, taucht eine deutliche Trennung der Klassen auf.

Durch den Vergleich verschiedener Konfidenz‑Subsets und die Analyse der Klassen­trennbarkeit im latenten Raum lässt sich eindeutig nachweisen, dass klassenrelevante Strukturen erst unter konfidenzbasierter Filterung sichtbar werden.

Praktisch bedeutet dies, dass die Konfidenzfilterung als Alternative zu herkömmlichen Guidance‑Methoden für die bedingte Bildgenerierung eingesetzt werden kann, ohne zusätzliche Modellanpassungen vorzunehmen.

Ähnliche Artikel