PaSE: Neue Methode reduziert Modalkonkurrenz in multimodaler Sentimentanalyse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neueste Veröffentlichung auf arXiv (2511.17585v1) stellt PaSE vor – ein innovatives Framework, das die Zusammenarbeit zwischen Text-, Audio- und Bilddaten in der multimodalen Sentimentanalyse verbessert. Durch gezielte Kalibrierung und Shapley-basierte Optimierung werden konkurrierende Modalitäten ausgeglichen und die Gesamtleistung gesteigert.

PaSE nutzt zunächst Prototype-guided Calibration Learning (PCL), um unimodale Repräsentationen zu verfeinern. Anschließend sorgt ein Entropic Optimal Transport-Mechanismus für eine semantisch konsistente Ausrichtung der Prototypen. Dieser Schritt verhindert, dass dominante Modalitäten die schwächeren überlagern.

Im zweiten Optimierungszyklus kommt ein Dual-Phase-Ansatz zum Einsatz: Zuerst wird ein prototype-gated Fusion-Modul verwendet, um gemeinsame Features zu extrahieren. Danach moduliert Shapley-based Gradient Modulation (SGM) die Gradienten dynamisch, basierend auf dem Beitrag jeder Modalität. Dieser adaptive Mechanismus stabilisiert das Training und fördert eine ausgewogene Nutzung aller Signale.

Umfangreiche Tests auf den Datensätzen IEMOCAP, MOSI und MOSEI zeigen, dass PaSE die bisherige Spitzenleistung übertrifft und die Modalkonkurrenz signifikant reduziert. Die Ergebnisse deuten darauf hin, dass PaSE einen wichtigen Schritt in Richtung robusterer multimodaler Sentimentanalyse darstellt.

Ähnliche Artikel