Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework
In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs) auf nicht‑stationäre Umgebungen erweitert und die Diskontierungsrate flexibel mit Zeit und Übergängen variieren lässt. Dadurch werden sowohl unendliche‑horizontale, stationäre MDPs als auch endliche‑horizontale Modelle als Spezialfälle abgedeckt, ohne die Zustands‑, Aktions‑ oder Belohnungsstruktur zu verändern.
Die Autoren legen die theoretischen Grundlagen des NVMDP fest: Annahmen, Zustands‑ und Aktionswertformeln, Rekursionen, Matrixdarstellungen, Optimalitätsbedingungen und Policy‑Improvement‑Prinzipien für endliche Zustands‑ und Aktionsräume. Aufbauend darauf werden klassische Dynamic‑Programming‑ und generalisierte Q‑Learning‑Algorithmen angepasst, inklusive formaler Konvergenzbeweise.
Für Probleme mit Funktionsapproximation erweitern die Forscher das Policy‑Gradient‑Theorem sowie die Policy‑Improvement‑Grenze im Trust‑Region‑Policy‑Optimization‑Ansatz (TRPO) und liefern sowohl skalare als auch matrixbasierte Beweise. In empirischen Tests auf einem nicht‑stationären Gridworld‑Umfeld zeigen NVMDP‑basierte Algorithmen, dass sie optimale Pfade unter verschiedenen Belohnungs‑ und Diskontierungsschemata zuverlässig rekonstruieren, während herkömmliche Q‑Learning‑Methoden versagen.