MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer anderen Modalität nimmt. Das führt zu erfundenen Informationen und zeigt ein grundlegendes Problem in der Steuerung multimodaler Interaktionen.

Um dieses Problem zu lösen, wurde die Methode Modality‑Adaptive Decoding (MAD) vorgestellt. MAD ist ein trainingsfreier Ansatz, der die Gewichtung der modalitäts­spezifischen Decoding‑Zweige dynamisch an die Anforderungen der jeweiligen Aufgabe anpasst. Dabei nutzt das Modell seine eigene Fähigkeit zur Selbst‑Bewertung, um zu bestimmen, welche Modalitäten für die aktuelle Aufgabe relevant sind. Die daraus abgeleiteten Modalitätswahrscheinlichkeiten werden anschließend verwendet, um die kontrastiven Decoding‑Zweige zu gewichten, sodass das Modell sich auf die relevanten Informationen konzentriert und unerwünschte Kreuzmodal‑Interferenzen unterdrückt.

Umfangreiche Experimente auf den Benchmark‑Sätzen CMM und AVHBench zeigen, dass MAD die Cross‑Modal‑Halluzinationen signifikant reduziert. Für VideoLLaMA2‑AV wurden Verbesserungen von 7,8 % bzw. 2,0 % erzielt, während Qwen2.5‑Omni um 8,7 % bzw. 4,7 % besser abschneidet. Diese Ergebnisse unterstreichen, dass explizite Modalitäts‑Bewusstheit durch Selbst‑Assessment entscheidend für robuste multimodale Schlussfolgerungen ist und eine solide Erweiterung bestehender kontrastiver Decoding‑Methoden darstellt.

Der Quellcode ist frei verfügbar unter https://github.com/top-yun/MAD.

Ähnliche Artikel