Neues Framework SDE nutzt Spektrale Entwirrung für robustere multimodale Modelle
In der Welt des multimodalen kontrastiven Lernens hat sich ein neues Konzept namens Spectral Disentanglement and Enhancement (SDE) als vielversprechender Ansatz erwiesen. Während aktuelle Modelle große Erfolge bei der Erzeugung von reichhaltigen, übertragbaren Repräsentationen erzielen, vernachlässigen sie häufig die eigentliche spektrale Struktur der Features. Dadurch neigen hochdimensionale Einbettungen dazu, sich in schmalen Kegeln zu konzentrieren, wobei die wichtigsten semantischen Informationen in einem kleinen Teilraum liegen, während die übrigen Dimensionen von Rauschen und zufälligen Korrelationen dominiert werden. Dieses Ungleichgewicht schwächt die Generalisierungsfähigkeit der Modelle.