MICE: Reduziert Fehlverhalten in sicherheitskritischem Reinforcement Learning
Ein neues Verfahren namens MICE (Memory‑driven Intrinsic Cost Estimation) verspricht, die Sicherheit von Reinforcement‑Learning‑Systemen deutlich zu erhöhen. Durch die gezielte Kontrolle von Bias‑Fehlern in der Kostenwertfunktion können bislang häufig auftretende Regelverletzungen während des Trainings reduziert werden.
Constrained Reinforcement Learning (CRL) zielt darauf ab, maximale kumulative Belohnungen zu erzielen, während gleichzeitig bestimmte Sicherheits‑ oder Ressourcenkriterien eingehalten werden. In der Praxis stoßen viele CRL‑Algorithmen jedoch während des Lernprozesses vermehrt auf Regelverletzungen, was ihre Einsatzmöglichkeiten in sicherheitskritischen Bereichen stark einschränkt.
Die Autoren identifizieren die Unterbewertung der Kostenwertfunktion als Hauptursache für diese Verletzungen. Wenn die Kosten zu niedrig geschätzt werden, wird das Agentenverhalten zu riskant, weil potenzielle Gefahren unterschätzt werden.
MICE adressiert dieses Problem, indem es ein Gedächtnismodul einführt, das zuvor erkundete unsichere Zustände speichert. Analog zu den „Flashbulb‑Memories“ des Menschen, die gefährliche Erlebnisse lebhaft erinnern, nutzt MICE einen intrinsischen Kostenwert, der als Pseudo‑Zählung der Besuche in diesen Risikobereichen definiert ist. So werden gefährliche Regionen frühzeitig erkannt und vermieden.
Darüber hinaus wird eine extrinsisch‑intrinsische Kostenwertfunktion entwickelt, die die intrinsischen Kosten integriert und eine Bias‑Korrekturstrategie anwendet. Das Optimierungsziel wird innerhalb eines Trust‑Region‑Rahmens formuliert, wodurch stabile und sichere Lernschritte gewährleistet werden.
Die theoretische Analyse liefert Konvergenzgarantien für die neue Kostenwertfunktion und bestimmt einen Worst‑Case‑Grenzwert für Regelverletzungen bei der MICE‑Aktualisierung. Diese Resultate geben einen soliden mathematischen Rahmen für die Sicherheit des Ansatzes.
Umfangreiche Experimente zeigen, dass MICE die Anzahl der Regelverletzungen signifikant senkt, während die Leistungsfähigkeit der Agenten nahezu unverändert bleibt. Damit stellt MICE einen wichtigen Schritt dar, um Reinforcement‑Learning in sicherheitskritischen Anwendungen praktikabler zu machen.