Multimodale Sprachmodelle: Räumliches Denken – Aufgaben, Benchmarks & Methoden
Ein neues Survey‑Paper von arXiv (2511.15722v1) beleuchtet die bislang wenig erforschte Fähigkeit von multimodalen großen Sprachmodellen (MLLMs), räumliche Beziehungen in der 3‑D-Welt zu erkennen und zu manipulieren. Die Autoren betonen, dass räumliches Denken nicht allein von der Eingabemodalität abhängt, sondern ein komplexes Zusammenspiel kognitiver Prozesse darstellt.