Mini Amusement Parks: Der neue Test für KI-Entscheidungen im Geschäftsbereich
In einer Zeit, in der künstliche Intelligenz rasant voranschreitet, stoßen aktuelle Systeme noch immer an ihre Grenzen, wenn es um komplexe, realweltliche Entscheidungsprozesse geht. Der neue Simulator „Mini Amusement Parks“ (MAPs) bietet dafür ein ganzheitliches Testfeld, das mehrere zentrale Herausforderungen gleichzeitig adressiert: die Modellierung von Umgebungsdynamiken aus wenigen Erfahrungen, die Planung über lange Zeiträume in unsicheren Situationen und die Verarbeitung räumlicher Informationen.
MAPs simuliert die Führung eines Freizeitparks, bei dem Agenten lernen müssen, ihre Umgebung zu verstehen, langfristige Konsequenzen abzuschätzen und strategisch zu handeln. In umfangreichen Tests haben menschliche Teilnehmer die leistungsstärksten Sprachmodelle deutlich übertroffen – mit einem Faktor von 6,5 bei einfachen Aufgaben und 9,8 bei mittleren Schwierigkeitsgraden.
Die Analyse der Ergebnisse zeigt, dass besonders die Optimierung über lange Horizonte, das effiziente Lernen aus wenigen Beispielen, die räumliche Wahrnehmung und das Erstellen von Weltmodellen noch erhebliche Schwächen aufweisen. Durch die Bündelung all dieser Aspekte in einer einzigen Umgebung liefert MAPs eine neue Basis, um KI-Agenten zu bewerten, die sich an wechselnde Bedingungen anpassen können.
Der Code für MAPs ist öffentlich zugänglich: https://github.com/Skyfall-Research/MAPs