DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg
In der Forschung zum Cross‑Domain Offline Reinforcement Learning geht es darum, einen Agenten für ein Zielumfeld zu trainieren, indem sowohl ein begrenztes Datenset des Zielbereichs als auch ein umfangreiches Datenset a…