Selbstgesteuertes Curriculum verbessert Robustheit in Reinforcement Learning
In der Verstärkungslern‑Forschung ist es ein zentrales Problem, dass Agenten, die in kontrollierten Umgebungen trainiert werden, bei der Ausführung in der realen Welt häufig versagen. Die neue Methode Verteilungsrobustes selbstgesteuertes Curriculum‑Verstärkungslernen (DR‑SPCRL) löst dieses Problem, indem sie die Robustheitsgrenze als fortschreitendes Lernprogramm behandelt.
Traditionell wird bei der verteilungsrobusten Verstärkungslernen (DRRL) ein fester Robustheitsparameter ε gewählt. Kleine Werte führen zu hoher Leistung, aber geringer Widerstandsfähigkeit, während große Werte die Stabilität gefährden und zu übermäßig konservativen Strategien führen. DR‑SPCRL passt ε dynamisch an den Fortschritt des Agenten an und balanciert so nominale Leistung und Robustheit optimal.
Experimentelle Tests in mehreren Simulationsumgebungen zeigen, dass DR‑SPCRL nicht nur das Training stabilisiert, sondern auch die Leistung unter unterschiedlichen Störungen um durchschnittlich 11,8 % steigert. Im Vergleich zu festen oder heuristischen Planungen erreicht die Methode zudem rund 1,9‑mal die Leistung der entsprechenden nominalen RL‑Algorithmen.