MIGR: Modality-Importance-Guided Reasoning steigert Zuverlässigkeit Emotionsanalyse
In einer neuen Studie aus dem arXiv-Repository wurde das Framework MIGR vorgestellt, das die Zuverlässigkeit multimodaler Emotionsanalyse in großen Sprachmodellen deutlich verbessert. MIGR nutzt einen Mechanismus namens Modality Importance (MI), um die für eine gegebene Emotion dominante Modalität zu identifizieren und die Argumentationskette von dort aus zu starten.
Der Ansatz verhindert das häufige Phänomen des „Reasoning Drift“, bei dem Modelle ihre eigenen generierten Texte statt multimodaler Beweise als Hauptgrundlage für ihre Schlussfolgerungen heranziehen. Durch die gezielte Neuanordnung der Beweisführung wird die Erklärung von weniger relevanten Hinweisen ferngehalten, sodass die Modelle konsistentere und emotional fundierte Antworten liefern.
MIGR besteht aus zwei Stufen: zunächst wird ein modalligniertes Supervised Fine‑Tuning durchgeführt, gefolgt von einer Modality‑Aware Reward‑Optimierung. Diese Kombination fördert die Erzeugung von Erklärungen, die nicht nur emotional relevant, sondern auch kausal zusammenhängend und kohärent sind.
Die Ergebnisse auf dem DFEW-Benchmark sind beeindruckend: Die Anzahl der korrekten Vorhersagen mit emotional inkonsistenten Erklärungen sank von 18,10 % auf lediglich 7,37 %. Diese Zahlen belegen, dass die Startposition der Argumentation – die emotion-dominante Modalität – einen entscheidenden Einfluss auf die Zuverlässigkeit multimodaler Emotionserkennung hat.