Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework
In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs) auf nicht‑stationäre Umgebungen erweitert und die Diskontierungsrate flexibel mit Zeit und Übergängen variieren lässt. Dadurch werden sowohl unendliche‑horizontale, stationäre MDPs als auch endliche‑horizontale Modelle als Spezialfälle abgedeckt, ohne die Zustands‑, Aktions‑ oder Belohnungsstruktur zu verändern.