Forschung
Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework
In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs…
arXiv – cs.LG