Forschung arXiv – cs.LG

MazeBench: Hohe Labyrinth-Erfolge bedeuten keine echte visuelle Planung

Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisi…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt.
  • Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisiert sind, und bietet damit eine umfassende Plattform, um die…
  • In einer umfangreichen Evaluation wurden 16 Konfigurationen von führenden Anbietern wie OpenAI, Anthropic, Google und Alibaba getestet.

Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisiert sind, und bietet damit eine umfassende Plattform, um die Fähigkeiten von Sprachmodellen bei räumlichen Aufgaben zu prüfen.

In einer umfangreichen Evaluation wurden 16 Konfigurationen von führenden Anbietern wie OpenAI, Anthropic, Google und Alibaba getestet. Auf den ersten Blick beeindruckten die Ergebnisse: GPT‑5.4 erreichte 91 % und Gemini 3.1 Pro 79 %. Doch die Zahlen verbergen eine entscheidende Wahrheit.

Die Modelle lösen die Rätsel nicht durch echtes Planen, sondern wandeln die Bilder zunächst in Text‑Raster um und führen anschließend eine Schritt‑für‑Schritt‑Enumeration der möglichen Pfade durch. Dieser Ansatz verbraucht zwischen 1 710 und 22 818 Tokens pro Lösung – ein Aufwand, der bei menschlichen Spielern nur wenige Sekunden erfordert.

Wenn die Modelle ohne zusätzliche Rechenbudgets arbeiten, fallen die Erfolgsraten drastisch auf 2 – 12 %. Auf besonders schwierigen 20 × 20‑Labyrinthen stoßen sie sogar an ihre Token‑Grenzen und scheitern. Diese Ergebnisse zeigen, dass die hohen Punktzahlen nicht auf ein echtes räumliches Verständnis hinweisen.

Qualitative Analysen der Lösungswege offenbaren eine zweistufige Strategie: erst die Bild‑zu‑Raster‑Übersetzung, dann die tokenbasierte Suche – im Grunde ein Breadth‑First‑Search (BFS) in Textform. Ein Ablationstest mit einem Text‑Raster demonstriert, dass Claude Sonnet 4.6 von lediglich 6 % bei Bildeingaben auf 80 % steigt, wenn das korrekte Raster bereitgestellt wird. Damit wird klar, dass die Schwäche in der visuellen Extraktion liegt, nicht im Suchalgorithmus.

Selbst wenn die Modelle ausdrücklich angewiesen werden, kein Raster zu erstellen oder keine Graphsuche durchzuführen, kehren sie zu derselben enumerativen Strategie zurück. MazeBench liefert damit einen entscheidenden Hinweis: Hohe Genauigkeit bei visuellen Planungsaufgaben bedeutet nicht automatisch, dass die KI ein menschenähnliches räumliches Verständnis besitzt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MazeBench
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
multimodale KI
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen