MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs
Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer anderen Modalität nimmt. Das führt zu erfundenen I…
- Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer…
- Das führt zu erfundenen Informationen und zeigt ein grundlegendes Problem in der Steuerung multimodaler Interaktionen.
- Um dieses Problem zu lösen, wurde die Methode Modality‑Adaptive Decoding (MAD) vorgestellt.
Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer anderen Modalität nimmt. Das führt zu erfundenen Informationen und zeigt ein grundlegendes Problem in der Steuerung multimodaler Interaktionen.
Um dieses Problem zu lösen, wurde die Methode Modality‑Adaptive Decoding (MAD) vorgestellt. MAD ist ein trainingsfreier Ansatz, der die Gewichtung der modalitätsspezifischen Decoding‑Zweige dynamisch an die Anforderungen der jeweiligen Aufgabe anpasst. Dabei nutzt das Modell seine eigene Fähigkeit zur Selbst‑Bewertung, um zu bestimmen, welche Modalitäten für die aktuelle Aufgabe relevant sind. Die daraus abgeleiteten Modalitätswahrscheinlichkeiten werden anschließend verwendet, um die kontrastiven Decoding‑Zweige zu gewichten, sodass das Modell sich auf die relevanten Informationen konzentriert und unerwünschte Kreuzmodal‑Interferenzen unterdrückt.
Umfangreiche Experimente auf den Benchmark‑Sätzen CMM und AVHBench zeigen, dass MAD die Cross‑Modal‑Halluzinationen signifikant reduziert. Für VideoLLaMA2‑AV wurden Verbesserungen von 7,8 % bzw. 2,0 % erzielt, während Qwen2.5‑Omni um 8,7 % bzw. 4,7 % besser abschneidet. Diese Ergebnisse unterstreichen, dass explizite Modalitäts‑Bewusstheit durch Selbst‑Assessment entscheidend für robuste multimodale Schlussfolgerungen ist und eine solide Erweiterung bestehender kontrastiver Decoding‑Methoden darstellt.
Der Quellcode ist frei verfügbar unter https://github.com/top-yun/MAD.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.