Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung
In der Offline‑Reinforcement‑Learning‑Forschung ist die Überbewertung von Werten durch Aktionen außerhalb der Trainingsverteilung ein zentrales Problem, das die Leistung von Policies stark einschränkt. Um diesem Hindern…