Neuer Algorithmus liefert optimale Sample-Komplexität für robuste Offline-MARL
In der schnell wachsenden Welt des Multi‑Agenten‑Reinforcement Learning (MARL) stellt die Robustheit von Strategien im Angesicht von Umweltunsicherheiten einen entscheidenden Erfolgsfaktor dar. Ein neues Forschungsergebnis aus dem Bereich der Offline‑Robustheit von Zwei‑Spieler‑Null‑Summen‑Markov‑Spielen (TZMGs) liefert einen bedeutenden Fortschritt: Der Algorithmus RTZ‑VI‑LCB kombiniert optimistische robuste Wertiteration mit einem datenbasierten Bernstein‑Stil‑Strafterm, um die Unsicherheit in historischen Datensätzen zu berücksichtigen.