Neue ICVaR-Methoden reduzieren Risiko in POMDP-Planung
In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues Verfahren zur risikosensitiven Planung in Partially Observable Markov Decision Processes (POMDPs) vorgestellt. Das Verfahren nutzt den dynamischen Risikomaßstab Iterated Conditional Value-at-Risk (ICVaR), um Entscheidungen unter Unsicherheit gezielt zu steuern.
Der Kern des Beitrags ist ein Policy‑Evaluation‑Algorithmus für ICVaR, der in endlicher Zeit arbeitet und dessen Leistung nicht von der Größe des Aktionsraums abhängt. Damit wird ein wichtiger theoretischer Meilenstein gesetzt, der die praktische Anwendbarkeit von risikosensitiven Strategien in komplexen Umgebungen erleichtert.
Auf dieser Grundlage wurden drei etablierte Online‑Planungsalgorithmen – Sparse Sampling, Particle Filter Trees mit Double Progressive Widening (PFT‑DPW) und Partially Observable Monte Carlo Planning mit Observation Widening (POMCPOW) – erweitert. Statt die erwartete Belohnung zu maximieren, optimieren sie nun die ICVaR‑Wertfunktion. Ein Risikoparameter α steuert dabei die Risikoscheu: α = 1 entspricht der klassischen Erwartungsoptimierung, während α < 1 zunehmende Risikoscheu bewirkt.
Besonders für ICVaR Sparse Sampling wurden neue endliche Zeit‑Garantien und eine speziell auf ICVaR zugeschnittene Exploration‑Strategie entwickelt. Experimente an Standard‑POMDP‑Benchmarks zeigen, dass die ICVaR‑optimierten Planer das Risiko in der unteren Schwanzverteilung deutlich reduzieren, während sie gleichzeitig die Leistungsfähigkeit ihrer risikoneutralen Gegenstücke übertreffen.