Causal-HalBench enthüllt, wie LVLMs durch Korrelationen falsche Objekte erkennen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie von arXiv:2511.10268v1 wird gezeigt, dass große Vision‑Language‑Modelle (LVLMs) häufig Objekt‑Halluzinationen erzeugen. Diese Fehler entstehen laut den Autoren vor allem durch spurious correlations, also unerwünschte Zusammenhänge, die während des Trainings entstehen, wenn stark zusammen auftretende Objekte miteinander verknüpft werden.

Um diese Problematik systematisch zu untersuchen, haben die Forscher ein Structural Causal Model (SCM) entwickelt und damit die Kausalität zwischen Bildinhalten und Modellvorhersagen formalisiert. Auf dieser Basis entstand Causal‑HalBench, ein Benchmark, der gezielt Gegenfaktische Beispiele nutzt, um die Robustheit von LVLMs gegenüber solchen Korrelationen zu messen.

Der neue Ansatz kombiniert die Erzeugung von Gegenfaktischen Bildern mithilfe von proprietären LVLMs und Text‑to‑Image‑Modellen mit einer Reihe von kausalen Metriken. Durch die Analyse von Counterfactual‑Samples können die Autoren die Stärke der spurious correlations quantifizieren und bewerten, wie stark ein Modell von Kontext‑Bias beeinflusst wird.

Die Evaluation von Causal‑HalBench an führenden LVLMs zeigt, dass die Modelle zwar unterschiedlich stark, aber eindeutig anfällig für spurious correlations sind. Die Arbeit liefert damit ein wichtiges Werkzeug, um die Zuverlässigkeit von Vision‑Language‑Systemen zu erhöhen und zukünftige Entwicklungen gezielt zu verbessern.

Ähnliche Artikel