DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg
In der Forschung zum Cross‑Domain Offline Reinforcement Learning geht es darum, einen Agenten für ein Zielumfeld zu trainieren, indem sowohl ein begrenztes Datenset des Zielbereichs als auch ein umfangreiches Datenset aus einer Quelldomäne genutzt wird. Ein häufiges Problem ist die Dynamik‑Diskrepanz zwischen den beiden Domänen: Wenn die Daten einfach zusammengeführt werden, kann die Leistung stark nachlassen.