Neues RL-Framework: Flexible Diskontierung optimiert risikosensitives Lernen
In der Welt des Reinforcement Learning hat sich die distributionale Variante als besonders wirkungsvoll erwiesen, wenn es darum geht, risk-sensitive Ziele zu optimieren. Trotz dieser Fortschritte wird der Diskontierungs…