OpenGuanDan: Benchmark für komplexe Kartenstrategien mit unvollständiger Info

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die rasante Entwicklung datengetriebener künstlicher Intelligenz, insbesondere im maschinellen Lernen, hängt stark von umfangreichen Benchmarks ab. Trotz großer Fortschritte in Bereichen wie Mustererkennung und intelligenter Entscheidungsfindung – von Brettspielen über Kartenspiele bis hin zu E‑Sports – besteht weiterhin der dringende Bedarf an anspruchsvolleren Testfeldern, die die Forschung voranbringen.

In diesem Zusammenhang stellt OpenGuanDan ein neues Benchmark vor, das die Simulation des beliebten chinesischen Kartenspiels GuanDan – ein vierköpfiges, mehrrundenbasiertes Spiel – effizient ermöglicht und gleichzeitig die Leistung von lernbasierten sowie regelbasierten AI-Agenten umfassend bewertet. Das Benchmark deckt eine Vielzahl von Herausforderungen ab, darunter unvollständige Informationen, riesige Informations- und Aktionsräume, kooperative und kompetitive Lernziele, langfristige Entscheidungsfindung, variable Aktionsräume sowie dynamische Teamzusammenstellungen.

Diese Eigenschaften machen OpenGuanDan zu einer anspruchsvollen Testumgebung für bestehende Methoden der intelligenten Entscheidungsfindung. Durch die Bereitstellung einer unabhängigen API für jeden Spieler können nicht nur Agenten, sondern auch menschliche Spieler mit der KI interagieren, was die Integration mit großen Sprachmodellen erleichtert.

Die Autoren führten zwei Arten von Tests durch: Erstens wurden alle GuanDan-AI-Agenten in Paarkämpfen gegeneinander antreten gelassen, und zweitens wurden menschliche Spieler gegen die KI eingesetzt. Die Ergebnisse zeigen, dass lernbasierte Agenten die regelbasierten deutlich übertreffen, jedoch noch nicht die Superhuman-Performance erreichen. Dies unterstreicht die Notwendigkeit weiterer Forschung und Entwicklung.

Ähnliche Artikel