CausalGDP: Kausale Diffusionspolitik revolutioniert Reinforcement Learning
Reinforcement Learning (RL) hat in den letzten Jahren enorme Fortschritte erzielt, insbesondere bei komplexen Entscheidungsproblemen. Neue diffusionbasierte Politiken haben die Leistung weiter gesteigert, indem sie hochdimensionale Aktionsverteilungen modellieren. Doch bislang basieren diese Ansätze hauptsächlich auf statistischen Zusammenhängen und berücksichtigen nicht explizit die kausalen Beziehungen zwischen Zuständen, Aktionen und Belohnungen. Dadurch fehlt ihnen die Fähigkeit, genau zu erkennen, welche Aktionskomponenten tatsächlich zu hohen Renditen führen.