Vision‑Language‑Modelle lösen Tangram‑Puzzles dank selbstreflektierender Testzeit‑Strategie
Menschen meistern Tangram‑Puzzles mühelos, indem sie mentale Rotation, iterative Verfeinerung und visuelles Feedback einsetzen. In einer Reihe von Experimenten mit fünf führenden Vision‑Language‑Modellen (VLMs) zeigte sich jedoch, dass diese Modelle in kontinuierlichen geometrischen Räumen stark hinter den menschlichen Fähigkeiten zurückbleiben – durchschnittliche Intersection-over-Union (IoU) von lediglich 0,41 bei Einzelstücken und 0,23 bei zweistufigen Zusammensetzungen.