MazeBench: Hohe Labyrinth-Erfolge bedeuten keine echte visuelle Planung
Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisi…
- Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt.
- Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisiert sind, und bietet damit eine umfassende Plattform, um die…
- In einer umfangreichen Evaluation wurden 16 Konfigurationen von führenden Anbietern wie OpenAI, Anthropic, Google und Alibaba getestet.
Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisiert sind, und bietet damit eine umfassende Plattform, um die Fähigkeiten von Sprachmodellen bei räumlichen Aufgaben zu prüfen.
In einer umfangreichen Evaluation wurden 16 Konfigurationen von führenden Anbietern wie OpenAI, Anthropic, Google und Alibaba getestet. Auf den ersten Blick beeindruckten die Ergebnisse: GPT‑5.4 erreichte 91 % und Gemini 3.1 Pro 79 %. Doch die Zahlen verbergen eine entscheidende Wahrheit.
Die Modelle lösen die Rätsel nicht durch echtes Planen, sondern wandeln die Bilder zunächst in Text‑Raster um und führen anschließend eine Schritt‑für‑Schritt‑Enumeration der möglichen Pfade durch. Dieser Ansatz verbraucht zwischen 1 710 und 22 818 Tokens pro Lösung – ein Aufwand, der bei menschlichen Spielern nur wenige Sekunden erfordert.
Wenn die Modelle ohne zusätzliche Rechenbudgets arbeiten, fallen die Erfolgsraten drastisch auf 2 – 12 %. Auf besonders schwierigen 20 × 20‑Labyrinthen stoßen sie sogar an ihre Token‑Grenzen und scheitern. Diese Ergebnisse zeigen, dass die hohen Punktzahlen nicht auf ein echtes räumliches Verständnis hinweisen.
Qualitative Analysen der Lösungswege offenbaren eine zweistufige Strategie: erst die Bild‑zu‑Raster‑Übersetzung, dann die tokenbasierte Suche – im Grunde ein Breadth‑First‑Search (BFS) in Textform. Ein Ablationstest mit einem Text‑Raster demonstriert, dass Claude Sonnet 4.6 von lediglich 6 % bei Bildeingaben auf 80 % steigt, wenn das korrekte Raster bereitgestellt wird. Damit wird klar, dass die Schwäche in der visuellen Extraktion liegt, nicht im Suchalgorithmus.
Selbst wenn die Modelle ausdrücklich angewiesen werden, kein Raster zu erstellen oder keine Graphsuche durchzuführen, kehren sie zu derselben enumerativen Strategie zurück. MazeBench liefert damit einen entscheidenden Hinweis: Hohe Genauigkeit bei visuellen Planungsaufgaben bedeutet nicht automatisch, dass die KI ein menschenähnliches räumliches Verständnis besitzt.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.