MazeBench: Hohe Labyrinth-Erfolge bedeuten keine echte visuelle Planung
Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 prozedural generierte Labyrinthbilder, die in neun kontrollierten Gruppen organisi…