Robuste Policy-Iteration bei Übergangssicherheit: Neue Offline RL-Methode
Offline-Reinforcement-Learning (RL) ermöglicht datenintensive und sichere Politikentwicklung ohne Online-Erkundung. In der Praxis leidet die Leistung jedoch häufig unter Verteilungsverschiebungen, wenn die erlernte Poli…