Neue Erkenntnisse: Logarithmischer Regret in Zero‑Sum‑Spielen mit Bandit‑Feedback
In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.06348v1) zeigen die Autoren, wie man in Nullsummenspielen mit Bandit‑Feedback – also nur dem eigenen Gewinn als Rückmeldung – das sogenannte Pure‑Strategy‑Maximin‑Regret logarithmisch begrenzen kann. Das Ergebnis ist ein bedeutender Fortschritt gegenüber dem bekannten \(\Omega(\sqrt{T})\)-Regret, das in solchen Settings unvermeidlich ist.