UACER: Ensemble-Ansatz steigert Robustheit im adversarialen Reinforcement Learning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Robustes adversariales Reinforcement Learning gewinnt zunehmend an Bedeutung, wenn Agenten in realen Umgebungen mit unsicheren Störungen umgehen müssen. In diesem Ansatz wird das Training häufig als Nullsummenspiel zwischen einem Protagonisten und einem Adversary formuliert, um die Policy-Resilienz zu erhöhen. Doch die lernfähige Natur des Adversaries führt zu Nicht-Stationarität in den Lerndynamiken, was die Stabilität und Konvergenz des Trainings stark beeinträchtigt – besonders in hochdimensionalen, komplexen Szenarien.

UACER (Uncertainty‑Aware Critic Ensemble) bietet eine innovative Lösung, indem es zwei zentrale Strategien kombiniert. Erstens nutzt es ein diversifiziertes Ensemble von K Critic‑Netzwerken, um die Q‑Wert‑Schätzung zu stabilisieren, anstatt auf ein einzelnes Critic‑Modell zu setzen. Diese Vielfalt reduziert die Varianz und stärkt die Robustheit der Policy. Zweitens führt UACER einen Time‑Varying Decay Uncertainty (TDU) Mechanismus ein, der über eine varianzbasierte Aggregation der Q‑Werte epistemische Unsicherheit explizit einbezieht. Dadurch wird das Exploration‑Exploitation‑Balance dynamisch reguliert und gleichzeitig der Trainingsprozess stabilisiert.

Umfangreiche Experimente an mehreren MuJoCo‑Kontrollaufgaben zeigen, dass UACER die Leistung gegenüber führenden Methoden deutlich übertrifft. Die Kombination aus Ensemble‑Stabilisierung und Unsicherheits‑basiertem Aggregationsmechanismus demonstriert, wie gezielte Unsicherheitsbewertung die Robustheit von Agenten in adversarialen Lernumgebungen nachhaltig verbessern kann.

Ähnliche Artikel