Forschung
DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg
In der Forschung zum Cross‑Domain Offline Reinforcement Learning geht es darum, einen Agenten für ein Zielumfeld zu trainieren, indem sowoh…
arXiv – cs.LG