Forschung
MazeBench: Hohe Labyrinth-Erfolge bedeuten keine echte visuelle Planung
Ein brandneues Benchmark namens MazeBench hat die Forschung im Bereich multimodaler KI auf den Kopf gestellt. Das Testsystem umfasst 110 pr…
arXiv – cs.LG