Forschung arXiv – cs.AI

MAD: Modality-Adaptive Decoding reduziert Halluzinationen in multimodalen LLMs

Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer anderen Modalität nimmt. Das führt zu erfundenen I…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer…
  • Das führt zu erfundenen Informationen und zeigt ein grundlegendes Problem in der Steuerung multimodaler Interaktionen.
  • Um dieses Problem zu lösen, wurde die Methode Modality‑Adaptive Decoding (MAD) vorgestellt.

Multimodale Large Language Models (MLLMs) leiden häufig unter sogenannten Cross‑Modal‑Halluzinationen, bei denen eine Modalität unpassend Einfluss auf die Ausgabe einer anderen Modalität nimmt. Das führt zu erfundenen Informationen und zeigt ein grundlegendes Problem in der Steuerung multimodaler Interaktionen.

Um dieses Problem zu lösen, wurde die Methode Modality‑Adaptive Decoding (MAD) vorgestellt. MAD ist ein trainingsfreier Ansatz, der die Gewichtung der modalitäts­spezifischen Decoding‑Zweige dynamisch an die Anforderungen der jeweiligen Aufgabe anpasst. Dabei nutzt das Modell seine eigene Fähigkeit zur Selbst‑Bewertung, um zu bestimmen, welche Modalitäten für die aktuelle Aufgabe relevant sind. Die daraus abgeleiteten Modalitätswahrscheinlichkeiten werden anschließend verwendet, um die kontrastiven Decoding‑Zweige zu gewichten, sodass das Modell sich auf die relevanten Informationen konzentriert und unerwünschte Kreuzmodal‑Interferenzen unterdrückt.

Umfangreiche Experimente auf den Benchmark‑Sätzen CMM und AVHBench zeigen, dass MAD die Cross‑Modal‑Halluzinationen signifikant reduziert. Für VideoLLaMA2‑AV wurden Verbesserungen von 7,8 % bzw. 2,0 % erzielt, während Qwen2.5‑Omni um 8,7 % bzw. 4,7 % besser abschneidet. Diese Ergebnisse unterstreichen, dass explizite Modalitäts‑Bewusstheit durch Selbst‑Assessment entscheidend für robuste multimodale Schlussfolgerungen ist und eine solide Erweiterung bestehender kontrastiver Decoding‑Methoden darstellt.

Der Quellcode ist frei verfügbar unter https://github.com/top-yun/MAD.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

multimodale LLMs
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Cross‑Modal‑Halluzination
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Modality‑Adaptive Decoding
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen