Neues Framework nutzt Hilbert-Raum-Embedding für mehrdimensionales RL
Ein neues, offline basiertes Framework für distributionales Reinforcement Learning – KE-DRL – nutzt Hilbert-Raum-Mappings, um die Kernel‑Mean‑Embedding der mehrdimensionalen Wertverteilung einer Zielpolitik zu schätzen. Dabei werden die kontinuierlichen, mehrdimensionalen Zustands‑ und Aktionsvariablen in einen reproduzierenden Kern-Hilbert‑Raum überführt, wodurch Wasserstein‑Metriken durch eine Integral‑Probability‑Metric ersetzt werden. Diese Umstellung ermöglicht eine effiziente Schätzung in komplexen, mehrdimensionalen Zustands‑Aktions‑ und Belohnungsräumen, in denen direkte Wasserstein‑Berechnungen rechenintensiv wären.