Neuer Ansatz für risikosensitives Q‑Learning in kontinuierlicher Zeit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung beleuchtet die Herausforderung des risikosensitiven Reinforcement Learning (RSRL) in kontinuierlicher Zeit. Dabei wird die Umgebung durch eine steuerbare stochastische Differentialgleichung (SDE) beschrieben und das Ziel ist ein potenziell nichtlineares Funktions­objektiv, das die kumulativen Belohnungen berücksichtigt.

Die Autoren zeigen, dass bei Verwendung eines optimierten Gewissheitsäquivalents (OCE) die optimale Steuerungs­politik Markovisch ist, wenn man die Umgebung um zusätzliche Zustandsvariablen erweitert. Dieses Ergebnis liefert eine klare theoretische Grundlage für die Praxis.

Darauf aufbauend wird der Algorithmus CT‑RS‑q vorgestellt – ein risikosensitives Q‑Learning, das auf einer neuen Martingale‑Charakterisierung basiert. Der Ansatz verbindet klassische Q‑Learning‑Methoden mit fortgeschrittenen stochastischen Techniken und ist speziell für kontinuierliche Zeiträume konzipiert.

In einer Simulation zum dynamischen Portfoliomanagement demonstriert das Paper die Wirksamkeit des Algorithmus. Die Ergebnisse zeigen, dass CT‑RS‑q robuste Entscheidungen trifft und die Rendite unter Berücksichtigung von Risiko­aspekten verbessert.

Ähnliche Artikel