Distributionale Gradienten: Neue RL‑Methode für stochastische Umgebungen
Ein neues Verfahren namens Distributional Sobolev Training erweitert die Möglichkeiten des Reinforcement Learning in stochastischen und verrauschten Umgebungen. Durch die gleichzeitige Modellierung der Verteilung über die skalaren Wertfunktionen und ihrer Gradienten liefert die Methode ein vielschichtiges Bild der erwarteten Belohnungen.
Die Technik nutzt ein ein‑Schritt‑Weltmodell, das mithilfe eines bedingten Variational Autoencoders (cVAE) sowohl Übergangs‑ als auch Belohnungsverteilungen erfasst. Anschließend wird ein distributionaler Bellman‑Operator mit Max‑sliced Maximum Mean Discrepancy (MSMMD) realisiert, wodurch die Gradienteninformation in die Lernschleife integriert wird.
Die Autoren zeigen mathematisch, dass der Sobolev‑angereicherte Bellman‑Operator eine Kontraktion ist und somit einen eindeutigen Fixpunkt besitzt. Dabei wird ein fundamentaler Kompromiss zwischen Glattheit und Kontraktionsrate in gradient‑sensitiven RL‑Algorithmen aufgezeigt.
Praktisch demonstriert die Studie die Wirksamkeit des Ansatzes zunächst an einem einfachen stochastischen Lernspiel und anschließend an mehreren MuJoCo‑Umgebungen. Die Ergebnisse deuten darauf hin, dass Distributional Sobolev Training die Sample‑Effizienz in verrauschten Szenarien deutlich steigern kann.