SpatialBench: Neuer Maßstab für räumliche Intelligenz multimodaler Sprachmodelle
Die räumliche Wahrnehmung ist ein zentrales Element echter multimodaler Intelligenz, denn sie ermöglicht es Modellen, mit ihrer physischen Umgebung effektiv zu interagieren. Trotz großer Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bleiben bestehende Benchmarks oft zu einfach, indem sie räumliche Fähigkeiten auf ein einziges, eindimensionales Maß reduzieren. Dieses Vorgehen erfasst weder die hierarchische Struktur noch die wechselseitigen Abhängigkeiten räumlicher Kompetenzen.