Forschung
DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen
In der Welt des Offline-Reinforcement-Learnings (RL) ist die Datenabdeckung oft ein entscheidendes Problem. Während klassische Offline‑RL-M…
arXiv – cs.LG