Forschung
Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung
In der Offline‑Reinforcement‑Learning‑Forschung ist die Überbewertung von Werten durch Aktionen außerhalb der Trainingsverteilung ein zentr…
arXiv – cs.LG