MOVER: Optimale Transportmethode mit Volumenregulierung für multimodale Modelle
Ein neues Forschungsdokument auf arXiv (2508.12149v1) präsentiert MOVER, ein innovatives Framework, das die Grenzen des multimodalen Lernens sprengt. Während bisherige Ansätze vor allem auf paarweise kontrastiven Zielen basieren, die sich gut für zwei Modalitäten eignen, hat MOVER einen ganzheitlichen Ansatz entwickelt, der Text, Video und Audio in einem einheitlichen, semantisch strukturierten Embedding‑Raum zusammenführt.
Der Kern von MOVER ist die Kombination aus optimalem Transport für weiche, wechselseitige Ausrichtung der Modalitäten und einer volumenbasierten geometrischen Regularisierung, die als GAVE (Geometric Volume Minimization) bezeichnet wird. Durch diese Kombination wird die Konsistenz der Alignment‑Strategie über alle Modalitäten hinweg gewährleistet, ohne dass die Methode auf eine bestimmte Modalität beschränkt ist.
In umfangreichen Tests zur Text‑Video‑Audio‑Retrieval‑Aufgabe hat MOVER die bisherigen Spitzenreiter deutlich übertroffen – sowohl im Zero‑Shot‑Modus als auch bei feinabgestimmten Modellen. Darüber hinaus zeigt die Analyse, dass das Modell besser auf bislang nicht gesehenen Kombinationen von Modalitäten generalisiert und eine stärkere strukturelle Kohärenz im Embedding‑Raum aufweist.