Forschung
EVO: Extreme Value Policy Optimization senkt Sicherheitsverletzungen im RL
In der Praxis stellt die Sicherheit von Reinforcement‑Learning‑Systemen eine zentrale Herausforderung dar. Traditionelle Constrained Reinfo…
arXiv – cs.LG