UACER: Ensemble-Ansatz steigert Robustheit im adversarialen Reinforcement Learning
Robustes adversariales Reinforcement Learning gewinnt zunehmend an Bedeutung, wenn Agenten in realen Umgebungen mit unsicheren Störungen umgehen müssen. In diesem Ansatz wird das Training häufig als Nullsummenspiel zwischen einem Protagonisten und einem Adversary formuliert, um die Policy-Resilienz zu erhöhen. Doch die lernfähige Natur des Adversaries führt zu Nicht-Stationarität in den Lerndynamiken, was die Stabilität und Konvergenz des Trainings stark beeinträchtigt – besonders in hochdimensionalen, komplexen Szenarien.