Neue Studie enthüllt Schwächen von Vision‑Language‑Modellen bei räumlichem Denken
Eine kürzlich veröffentlichte Arbeit auf arXiv (2511.13782v1) untersucht die räumlichen Denkfähigkeiten moderner Vision‑Language‑Modelle (VLMs) wie DeepSeek R1, OpenAI o3 und Gemini 2.5 Pro. Die Autoren stellen fest, dass trotz beeindruckender Leistungen in logischem Schließen und Problemlösen die Modelle bei Aufgaben, die mentale Rotation, Navigation oder die Erfassung räumlicher Beziehungen erfordern, deutlich hinter den Erwartungen zurückbleiben.