CausalGDP: Kausale Diffusionspolitik revolutioniert Reinforcement Learning
Reinforcement Learning (RL) hat in den letzten Jahren enorme Fortschritte erzielt, insbesondere bei komplexen Entscheidungsproblemen. Neue diffusionbasierte Politiken haben die Leistung weiter gesteigert, indem sie hochdimensionale Aktionsverteilungen modellieren. Doch bislang basieren diese Ansätze hauptsächlich auf statistischen Zusammenhängen und berücksichtigen nicht explizit die kausalen Beziehungen zwischen Zuständen, Aktionen und Belohnungen. Dadurch fehlt ihnen die Fähigkeit, genau zu erkennen, welche Aktionskomponenten tatsächlich zu hohen Renditen führen.
Die neu vorgestellte Causality-guided Diffusion Policy (CausalGDP) integriert kausales Denken in das diffusionbasierte RL-Framework. Zunächst wird aus Offline-Daten eine Basis-Diffusionspolitik sowie ein anfängliches kausales Dynamikmodell gelernt, das die kausalen Abhängigkeiten zwischen Zuständen, Aktionen und Belohnungen erfasst. Während der Echtzeit-Interaktion wird die kausale Information kontinuierlich aktualisiert und als Leitsignal genutzt, um den Diffusionsprozess gezielt in Richtung von Aktionen zu lenken, die kausal zukünftige Zustände und Belohnungen beeinflussen.
Durch die explizite Berücksichtigung von Kausalität statt bloßer Assoziation fokussiert CausalGDP die Optimierung auf die Aktionskomponenten, die tatsächlich die Leistung verbessern. Experimentelle Ergebnisse zeigen, dass CausalGDP konsequent konkurrenzfähige oder sogar überlegene Leistungen gegenüber führenden diffusionbasierten und Offline-RL-Methoden erzielt – besonders bei komplexen, hochdimensionalen Steuerungsaufgaben.