Forschung
Neues RL-Framework: Flexible Diskontierung optimiert risikosensitives Lernen
In der Welt des Reinforcement Learning hat sich die distributionale Variante als besonders wirkungsvoll erwiesen, wenn es darum geht, risk-…
arXiv – cs.LG