Neues RL-Framework: Flexible Diskontierung optimiert risikosensitives Lernen
In der Welt des Reinforcement Learning hat sich die distributionale Variante als besonders wirkungsvoll erwiesen, wenn es darum geht, risk-sensitive Ziele zu optimieren. Trotz dieser Fortschritte wird der Diskontierungsfaktor häufig als bloßes, festes Hyperparameter behandelt, ohne seine tiefgreifende Wirkung auf die erlernte Politik zu berücksichtigen.