Neue Studie enthüllt Schwächen von Vision‑Language‑Modellen bei räumlichem Denken

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine kürzlich veröffentlichte Arbeit auf arXiv (2511.13782v1) untersucht die räumlichen Denkfähigkeiten moderner Vision‑Language‑Modelle (VLMs) wie DeepSeek R1, OpenAI o3 und Gemini 2.5 Pro. Die Autoren stellen fest, dass trotz beeindruckender Leistungen in logischem Schließen und Problemlösen die Modelle bei Aufgaben, die mentale Rotation, Navigation oder die Erfassung räumlicher Beziehungen erfordern, deutlich hinter den Erwartungen zurückbleiben.

Die Studie führt das neue Benchmark‑Set SpatiaLite ein, das sowohl die Genauigkeit als auch die Effizienz räumlicher Argumentation misst. Durch umfangreiche Experimente konnten drei zentrale Erkenntnisse gewonnen werden: Erstens verlassen sich fortgeschrittene VLMs überwiegend auf sprachbasierte Darstellungen, wodurch sie bei visuell dominierten Aufgaben wie 3‑D‑Geometrie‑Transformationen stark schwächeln. Zweitens zeigen die Modelle eine erhebliche Ineffizienz, da der Token‑Verbrauch mit zunehmender Transformationskomplexität exponentiell ansteigt. Drittens wird ein „Imagery Driven Framework“ (IDF) vorgeschlagen, das durch gezielte Datensynthese ein internes Weltmodell implizit aufbaut und damit die räumliche Argumentation verbessert.

SpatiaLite bietet damit einen systematischen Ansatz, um die räumlichen Fähigkeiten von VLMs zu bewerten und gezielt zu verbessern. Die vorgestellte IDF‑Methode eröffnet neue Wege, um Modelle mit einem robusteren, bildbasierten Verständnis von Raum auszustatten. Diese Erkenntnisse legen den Grundstein für zukünftige Entwicklungen, die VLMs näher an die menschliche räumliche Intelligenz bringen sollen.

Ähnliche Artikel