Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung
In der Offline‑Reinforcement‑Learning‑Forschung ist die Überbewertung von Werten durch Aktionen außerhalb der Trainingsverteilung ein zentrales Problem, das die Leistung von Policies stark einschränkt. Um diesem Hindernis entgegenzuwirken, setzen moderne Ansätze Diffusionsmodelle ein, die dank ihrer ausgeprägten Fähigkeit zur Verteilungsanpassung besonders konservativ agieren können. Allerdings führen bisherige Methoden häufig zu einer übermäßigen Regularisierung von redundanten Aktionen in Datensätzen mit geringer Qualität, was zu einer übermäßigen Vorsicht und einem Ungleichgewicht zwischen Ausdruckskraft und Effizienz der Modelle führt.