Neue Methode optimiert multimodales Lernen durch adaptive Redundanzregulierung
Im Bereich des multimodalen Lernens wird die Leistung durch die Kombination mehrerer Datenquellen gesteigert. In der Praxis führt jedoch ein Modality‑Bias dazu, dass die stärkere Modalität die Backpropagation dominiert und das Training ungleichmäßig gestaltet.
Aktuelle Ansätze zeigen zwei wesentliche Schwächen: Erstens schwächt die langfristige Dominanz der bevorzugten Modalität die Kopplung zwischen Repräsentation und Ausgabe in den späteren Trainingsphasen, was zu einer Ansammlung redundanter Informationen führt. Zweitens passen viele Methoden die Gradienten der dominanten Modalität gleichmäßig an, ohne die semantische Beziehung und Richtung zwischen den Modalitäten zu berücksichtigen.
Um diese Probleme zu lösen, wurde RedReg – Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement – entwickelt. Die Methode basiert auf dem Information‑Bottleneck‑Prinzip und nutzt einen Redundanz‑Phase‑Monitor, der anhand einer Kombination aus effektiver Gewinnwachstumsrate und Redundanz nur dann eingreift, wenn die Redundanz hoch ist.
Ein weiteres Merkmal ist der Co‑Information‑Gate, der den Beitrag der aktuellen dominanten Modalität unter Berücksichtigung der übergreifenden Semantik schätzt. Wenn die Aufgabe primär auf einer einzigen Modalität beruht, wird der Unterdrückungsterm automatisch deaktiviert, um modal-spezifische Informationen zu bewahren.
Schließlich wird der Gradient der dominanten Modalität auf das orthogonale Komplement des gemeinsamen multimodalen Gradientensubraums projiziert und entsprechend der Redundanz unterdrückt. Experimente zeigen, dass RedReg die Leistung gegenüber den führenden bestehenden Methoden deutlich verbessert.