Neues Framework SDE nutzt Spektrale Entwirrung für robustere multimodale Modelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Welt des multimodalen kontrastiven Lernens hat sich ein neues Konzept namens Spectral Disentanglement and Enhancement (SDE) als vielversprechender Ansatz erwiesen. Während aktuelle Modelle große Erfolge bei der Erzeugung von reichhaltigen, übertragbaren Repräsentationen erzielen, vernachlässigen sie häufig die eigentliche spektrale Struktur der Features. Dadurch neigen hochdimensionale Einbettungen dazu, sich in schmalen Kegeln zu konzentrieren, wobei die wichtigsten semantischen Informationen in einem kleinen Teilraum liegen, während die übrigen Dimensionen von Rauschen und zufälligen Korrelationen dominiert werden. Dieses Ungleichgewicht schwächt die Generalisierungsfähigkeit der Modelle.

SDE adressiert dieses Problem, indem es die Singular Value Decomposition (SVD) nutzt, um die Feature-Dimensionen in drei Kategorien zu unterteilen: starke Signale, die entscheidende semantische Inhalte tragen; schwache Signale, die Nebenkorrelationen widerspiegeln; und Rauschen, das irrelevante Störungen darstellt. Anschließend wird ein curriculum-basiertes Spektral-Enhancement angewendet, das gezielt die informativen Komponenten verstärkt und dabei theoretische Garantien für die Trainingsstabilität bietet.

Ein weiteres Highlight von SDE ist die Einführung eines dualen Domänen-Contrastive Loss, der die Ausrichtung sowohl im Feature‑ als auch im Spektralraum optimiert. Durch die Integration spektraler Regularisierung in den Trainingsprozess werden reichhaltigere und robustere Repräsentationen gefördert. Umfangreiche Experimente auf großen multimodalen Benchmark‑Datensätzen zeigen, dass SDE die Leistung signifikant steigert und die Modelle widerstandsfähiger gegen spektrale Ungleichgewichte macht.

Ähnliche Artikel