KnowDR-REC: Neuer Benchmark prüft multimodale Sprachmodelle mit realen Wissensdaten
Die Aufgabe der Referring Expression Comprehension (REC) verlangt, dass ein Modell ein Zielobjekt in einem Bild anhand einer Textbeschreibung exakt erkennt. Bisher beruhen die gängigen REC-Benchmarks entweder ausschließlich auf Bildinhalten oder bieten keine detaillierten Instanzannotationen, sodass sie die Fähigkeit von multimodalen großen Sprachmodellen (MLLMs) zu komplexem multimodalem Denken nicht ausreichend prüfen.
Mit KnowDR-REC wird diese Lücke geschlossen. Das neue Benchmark‑Set nutzt echte Weltkenntnisse, sodass Modelle nicht nur Bildmerkmale, sondern auch kontextuelles Wissen aus Text und Bild verknüpfen müssen. Zusätzlich werden gezielt negative Beispiele erzeugt, indem die Beschreibungen feingranular verändert werden – so lässt sich die Robustheit und die Anti‑Halluzination eines Modells testen. Abschließend wurden drei neue Metriken eingeführt, die den internen Denkprozess der Modelle transparent machen.
Bei einer umfassenden Evaluation von 16 führenden multimodalen Modellen zeigte KnowDR-REC, dass die meisten MLLMs noch immer Schwierigkeiten haben, wissensbasierte visuelle Zuordnungen korrekt durchzuführen. Besonders auffällig ist die Trennung zwischen sprachlichem Verständnis und visueller Lokalisierung: Viele Modelle greifen auf auswendig gelernte Kurzschlusskorrelationen zurück, was ihre Leistung auf dem Benchmark stark beeinträchtigt und echte multimodale Logik behindert.
KnowDR-REC bietet damit einen neuen, anspruchsvollen Test für die Entwicklung von robusteren, interpretierbaren und wissensbasierten multimodalen Systemen. Es wird erwartet, dass die Forschung dadurch stärker auf die Integration von Weltwissen und auf die Verbesserung der internen Repräsentationen fokussiert wird.