EVO: Extreme Value Policy Optimization senkt Sicherheitsverletzungen im RL
In der Praxis stellt die Sicherheit von Reinforcement‑Learning‑Systemen eine zentrale Herausforderung dar. Traditionelle Constrained Reinforcement Learning‑Ansätze maximieren die Belohnung unter der Bedingung, dass die…