Online-Lernen Markov-Spielen: Empirischer Nash-Wert-Fehler & Nicht-Stationarität
In einer neuen Studie auf arXiv wird das Online-Lernen in zwei‑Spieler‑Markov‑Spielen ohne Beobachtung der gegnerischen Aktionen untersucht. Frühere Arbeiten, insbesondere Tian et al. (2021), haben gezeigt, dass ein ext…