Optimistisches RL: Quantilbasierte Lernstrategie für risikobewusste
Reinforcement Learning hat in den letzten Jahren enorme Fortschritte erzielt, doch die klassischen Modelle berücksichtigen selten die Risikobewertung, die in Bereichen wie Medizin oder Finanzen entscheidend ist. Um dieses Problem anzugehen, setzen Forscher zunehmend auf Quantilziele – also die Optimierung eines bestimmten Quantils der kumulativen Belohnungsverteilung.