EVO: Extreme Value Policy Optimization senkt Sicherheitsverletzungen im RL
In der Praxis stellt die Sicherheit von Reinforcement‑Learning‑Systemen eine zentrale Herausforderung dar. Traditionelle Constrained Reinforcement Learning‑Ansätze maximieren die Belohnung unter der Bedingung, dass die erwartete Gesamtkostenfunktion nicht überschritten wird. Diese Erwartungs‑Basierten Grenzen vernachlässigen jedoch seltene, aber hochwirksame Extreme‑Value‑Ereignisse – die sogenannten Black‑Swan‑Incidents – die zu gravierenden Regelverletzungen führen können.
Der neue Algorithmus EVO (Extreme Value Policy Optimization) nutzt die Extreme Value Theory, um die seltenen, extremen Belohnungs‑ und Kostensamples gezielt zu modellieren und auszunutzen. Durch die Einführung eines extremen Quantil‑Optimierungsziels werden die Kosten im Schwanz der Verteilung explizit berücksichtigt. Zusätzlich wird ein Priorisierungssystem im Replay‑Buffer implementiert, das das Lernsignal von seltenen, aber hochwirksamen Samples verstärkt. Auf diese Weise fokussiert EVO die Lernprozesse auf die kritischen Randfälle, die in herkömmlichen Methoden oft übersehen werden.
Die Autoren zeigen theoretisch, dass EVO obere Schranken für erwartete Regelverletzungen während der Policy‑Updates liefert und damit eine strikte Einhaltung der Sicherheitsgrenzen bei einem Null‑Verletzungs‑Quantil garantiert. Empirische Studien belegen, dass EVO die Wahrscheinlichkeit von Regelverletzungen deutlich senkt, die Varianz im Vergleich zu Quantil‑Regression‑Methoden reduziert und gleichzeitig eine konkurrenzfähige Policy‑Performance gegenüber etablierten Baselines aufrechterhält. Diese Ergebnisse markieren einen bedeutenden Fortschritt für sichere Anwendungen von Reinforcement Learning in der realen Welt.