Neuer Algorithmus liefert optimale Sample-Komplexität für robuste Offline-MARL

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der schnell wachsenden Welt des Multi‑Agenten‑Reinforcement Learning (MARL) stellt die Robustheit von Strategien im Angesicht von Umweltunsicherheiten einen entscheidenden Erfolgsfaktor dar. Ein neues Forschungsergebnis aus dem Bereich der Offline‑Robustheit von Zwei‑Spieler‑Null‑Summen‑Markov‑Spielen (TZMGs) liefert einen bedeutenden Fortschritt: Der Algorithmus RTZ‑VI‑LCB kombiniert optimistische robuste Wertiteration mit einem datenbasierten Bernstein‑Stil‑Strafterm, um die Unsicherheit in historischen Datensätzen zu berücksichtigen.

RTZ‑VI‑LCB arbeitet modellbasiert und erzielt damit eine nahezu optimale Sample‑Komplexität, selbst wenn die Daten nur teilweise die gesamte Zustands‑ und Aktionsraum abdecken. Durch die Berücksichtigung von Verteilungssprüngen in den vorhandenen Daten bleibt die Policy robust gegenüber dem Sim‑to‑Real‑Gap, der in realen Anwendungen häufig auftritt.

Ein zusätzlich entwickeltes informations­theoretisches Unter­grenze‑Argument bestätigt die Tightness der Sample‑Komplexität des Algorithmus. Damit ist RTZ‑VI‑LCB das erste Verfahren, das diese optimale Komplexität sowohl in Bezug auf Zustände als auch auf Aktionen erreicht. Die Autoren haben die Wirksamkeit des Ansatzes zudem experimentell validiert, was die neue Methode als Benchmark für zukünftige Offline‑Robust‑MARL‑Studien etabliert.

Ähnliche Artikel