Neuer Deep SOR Minimax Q-Learning beschleunigt Zwei-Spieler Nullsummenspiele

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der spieltheoretischen Algorithmen hat ein neues Verfahren die Messlatte höher gelegt: Der Deep SOR Minimax Q‑Learning-Algorithmus kombiniert die Vorteile der Successive Over‑Relaxation (SOR) mit tiefen neuronalen Netzen, um Zwei‑Spieler‑Nullsummenspiele effizienter zu lösen.

Frühere SOR‑Q‑Learning‑Ansätze waren auf tabellarische Darstellungen beschränkt und konnten die Komplexität moderner, hochdimensionaler Zustands‑ und Aktionsräume nicht bewältigen. Der neue Ansatz nutzt neuronale Netzwerke als Funktionsapproximatoren, wodurch er in realen Szenarien mit Millionen von möglichen Zuständen anwendbar ist.

Die Autoren haben nicht nur die theoretische Basis gelegt, sondern auch die konvergente Laufzeit des Algorithmus bewiesen. In umfangreichen Simulationen übertraf der Deep SOR Minimax Q‑Learning die klassische Q‑Learning‑Methode deutlich, sowohl in Bezug auf die Geschwindigkeit als auch auf die erzielte Spielstärke.

Ein besonderes Augenmerk liegt auf der Wahl des SOR‑Parameters. Durch gezielte Ablationsstudien konnten die Entwickler die optimale Einstellung für verschiedene Spielumgebungen identifizieren, was die Anpassungsfähigkeit des Verfahrens weiter erhöht.

Ähnliche Artikel