DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen
In der Welt des Offline-Reinforcement-Learnings (RL) ist die Datenabdeckung oft ein entscheidendes Problem. Während klassische Offline‑RL-Methoden nur auf Daten aus einer einzigen Domäne zurückgreifen, nutzt die Cross‑Domain‑Offline‑RL zusätzliche Daten aus anderen Domänen, um die Abdeckung zu erweitern. Doch bisher konzentrierten sich die meisten Ansätze ausschließlich auf die Robustheit während des Trainings – also darauf, wie gut ein Modell mit Dynamikverschiebungen in den Trainingsdaten umgehen kann. Die Robustheit im Einsatz, also während der Evaluation, wurde dabei vernachlässigt.
Die neue Studie zeigt, dass Modelle, die mit Cross‑Domain‑Offline‑RL trainiert wurden, bei dynamischen Störungen während der Auswertung besonders anfällig sind, wenn die Daten aus der Zieldomäne knapp bemessen sind. Um diesem Problem entgegenzuwirken, wurde ein innovativer robuster Cross‑Domain Bellman (RCB)-Operator entwickelt. Dieser Operator stärkt die Test‑Robustheit gegen Dynamikstörungen, bleibt dabei aber konservativ gegenüber Übergängen, die außerhalb des Trainingsbereichs liegen, und garantiert somit die Robustheit während des Trainings.
Um mögliche Über- oder Unterschätzungen des Wertes, die durch den RCB-Operator entstehen könnten, wurden zwei zusätzliche Techniken eingeführt: eine dynamische Wertstrafe und der Huber‑Loss. Diese Ergänzungen führen zum praktischen Algorithmus DROCO (Dual‑Robust Cross‑Domain Offline RL). In umfangreichen Experimenten über verschiedene Szenarien von Dynamikverschiebungen hinweg hat DROCO die führenden Baselines übertroffen und eine deutlich verbesserte Robustheit gegenüber Dynamikstörungen demonstriert.