ReMindView-Bench: Benchmark enthüllt Schwächen von VLMs bei Mehransicht‑Räumlichkeit
Die neu veröffentlichte Studie präsentiert ReMindView-Bench, ein kognitiv fundiertes Benchmark, das die Fähigkeit von Vision‑Language‑Modellen (VLMs) testet, räumliche mentale Modelle über mehrere Ansichten hinweg zu konstruieren, auszurichten und zu erhalten.
Bei der Bewertung von 15 aktuellen VLMs zeigte sich ein konsistentes Versagen bei der Ausrichtung über verschiedene Perspektiven und beim Perspektivwechsel. Während die Modelle bei der Wahrnehmung einzelner Bilder stark abschnitten, fiel ihre Leistung deutlich ab, sobald Informationen aus mehreren Ansichten zusammengeführt werden mussten.
Die Analyse erfolgte in mehreren Schritten: Zunächst wurden LLMs als unabhängige Prüfer eingesetzt, um die einzelnen Phasen des Denkprozesses zu bewerten. Anschließend wurden Self‑Consistency‑Prompting‑Techniken angewendet, um die Zuverlässigkeit der Antworten zu erhöhen. Ergänzend wurden lineare Probing‑Methoden und Entropie‑Dynamik‑Analysen genutzt, um den Verlust relevanter Informationen und die Trennung von korrekten und falschen Routen im Verlauf der Aufgaben zu quantifizieren.
Die Ergebnisse liefern eine kognitiv fundierte Diagnose der räumlichen Denkfähigkeiten von VLMs und zeigen, wie Mehransicht‑Räumlichkeitsmodelle gebildet, abgebaut und destabilisiert werden. Das Benchmark bietet Forschern ein neues Werkzeug, um gezielt die Schwachstellen von VLMs zu adressieren und die Entwicklung robusterer multimodaler KI-Systeme voranzutreiben.