Neuer RL-Algorithmus: Risiko-sensitives Exponential Actor-Critic
Model‑free Deep‑Reinforcement‑Learning hat in den letzten Jahren enorme Erfolge erzielt, doch wenn diese Algorithmen in der realen Welt eingesetzt werden, bleiben Sicherheitsbedenken bestehen. Um diesen Herausforderungen zu begegnen, brauchen Agenten, die Risiken berücksichtigen können. Ein häufig genutztes Werkzeug dafür ist der entropische Risikomaß, doch bisherige Policy‑Gradient‑Methoden, die dieses Maß optimieren, führen zu hochvarianten und numerisch instabilen Updates. Dadurch beschränken sich bestehende risiko‑sensitiv‑en Ansätze auf sehr einfache Aufgaben und tabellarische Umgebungen.
In der vorliegenden Arbeit wird ein umfassendes theoretisches Fundament für Policy‑Gradient‑Methoden auf dem entropischen Risikomaß gelegt. Dazu gehören On‑ und Off‑Policy‑Gradienttheoreme sowohl für stochastische als auch für deterministische Politikmodelle. Ausgehend von dieser Theorie wird der risk‑sensitive exponential actor‑critic (rsEAC) vorgestellt – ein off‑policy, modellfreier Ansatz, der neuartige Verfahren nutzt, um die explizite Darstellung exponentieller Wertfunktionen und ihrer Gradienten zu vermeiden. Dadurch werden die Updates deutlich stabiler.
Experimentell zeigt rsEAC, dass es zuverlässig risiko‑sensitive Politiken in anspruchsvollen, risikoreichen Varianten kontinuierlicher Aufgaben in MuJoCo erlernen kann – ein deutlicher Fortschritt gegenüber bisherigen Methoden.