Neuer Algorithmus liefert optimale varianzabhängige Regret-Bound für MDPs
Online‑Reinforcement‑Learning in unendlichen Markov‑Entscheidungsprozessen (MDPs) ist bislang weniger theoretisch und algorithmisch ausgearbeitet als die episodische Variante. Viele bestehende Verfahren leiden unter hoh…