Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung
In der Offline‑Reinforcement‑Learning‑Forschung ist die Überbewertung von Werten durch Aktionen außerhalb der Trainingsverteilung ein zentrales Problem, das die Leistung von Policies stark einschränkt. Um diesem Hindernis entgegenzuwirken, setzen moderne Ansätze Diffusionsmodelle ein, die dank ihrer ausgeprägten Fähigkeit zur Verteilungsanpassung besonders konservativ agieren können. Allerdings führen bisherige Methoden häufig zu einer übermäßigen Regularisierung von redundanten Aktionen in Datensätzen mit geringer Qualität, was zu einer übermäßigen Vorsicht und einem Ungleichgewicht zwischen Ausdruckskraft und Effizienz der Modelle führt.
Die neue Methode DIVO (Diffusion Policies with Value‑Conditional Optimization) löst dieses Dilemma, indem sie Diffusionsmodelle nutzt, um hochwertige, breit abgedeckte Zustands‑Aktions‑Samples innerhalb der Verteilung zu erzeugen und gleichzeitig die Policy‑Verbesserung effizient zu gestalten. DIVO führt einen binärgewichteten Mechanismus ein, der die Vorteilwerte der Aktionen im Offline‑Datensatz verwendet, um das Training des Diffusionsmodells gezielt zu steuern. Dadurch wird die Übereinstimmung mit der tatsächlichen Datenverteilung präziser und die Grenzen für hochvorteilhafte Aktionen selektiv erweitert.
Während der Policy‑Verbesserung filtert DIVO dynamisch Aktionen mit hohem Ertragspotenzial aus dem Diffusionsmodell heraus und lenkt die lernende Policy so gezielt in Richtung besserer Leistungen. Dieser Ansatz schafft ein entscheidendes Gleichgewicht zwischen notwendiger Vorsicht und explorativem Verhalten, was in Offline‑RL besonders wichtig ist.
In umfangreichen Tests auf dem D4RL‑Benchmark hat DIVO die Leistung gegenüber aktuellen State‑of‑the‑Art‑Baselines deutlich übertroffen. Die Ergebnisse zeigen, dass die Kombination aus Diffusionsmodellierung und wertbasiertem Optimierungsmechanismus einen bedeutenden Fortschritt in der Offline‑Reinforcement‑Learning‑Forschung darstellt.