Neuer RL-Algorithmus: Risiko-sensitives Exponential Actor-Critic
Model‑free Deep‑Reinforcement‑Learning hat in den letzten Jahren enorme Erfolge erzielt, doch wenn diese Algorithmen in der realen Welt eingesetzt werden, bleiben Sicherheitsbedenken bestehen. Um diesen Herausforderungen zu begegnen, brauchen Agenten, die Risiken berücksichtigen können. Ein häufig genutztes Werkzeug dafür ist der entropische Risikomaß, doch bisherige Policy‑Gradient‑Methoden, die dieses Maß optimieren, führen zu hochvarianten und numerisch instabilen Updates. Dadurch beschränken sich bestehende risiko‑sensitiv‑en Ansätze auf sehr einfache Aufgaben und tabellarische Umgebungen.