Neues Framework nutzt Hilbert-Raum-Embedding für mehrdimensionales RL
Ein neues, offline basiertes Framework für distributionales Reinforcement Learning – KE-DRL – nutzt Hilbert-Raum-Mappings, um die Kernel‑Mean‑Embedding der mehrdimensionalen Wertverteilung einer Zielpolitik zu schätzen…