Neues Framework nutzt Hilbert-Raum-Embedding für mehrdimensionales RL
Ein neues, offline basiertes Framework für distributionales Reinforcement Learning – KE-DRL – nutzt Hilbert-Raum-Mappings, um die Kernel‑Mean‑Embedding der mehrdimensionalen Wertverteilung einer Zielpolitik zu schätzen. Dabei werden die kontinuierlichen, mehrdimensionalen Zustands‑ und Aktionsvariablen in einen reproduzierenden Kern-Hilbert‑Raum überführt, wodurch Wasserstein‑Metriken durch eine Integral‑Probability‑Metric ersetzt werden. Diese Umstellung ermöglicht eine effiziente Schätzung in komplexen, mehrdimensionalen Zustands‑Aktions‑ und Belohnungsräumen, in denen direkte Wasserstein‑Berechnungen rechenintensiv wären.
Die Autoren zeigen theoretisch, dass der distributionale Bellman‑Operator unter der neuen Metrik – basierend auf der Matern‑Kernel-Familie – kontrahierend ist und liefern damit Uniform‑Konvergenz‑Garantien. Simulationen und empirische Tests demonstrieren eine robuste Off‑Policy‑Evaluation und die erfolgreiche Rekonstruktion des Kernel‑Mean‑Embeddings unter milden Voraussetzungen wie Lipschitz‑Kontinuität und Kernel‑Beschränktheit. Das Ergebnis unterstreicht das Potenzial von Embedding‑basierten Ansätzen für anspruchsvolle Entscheidungs‑ und Risikobewertungsszenarien in der realen Welt.