Verhaltensoptimierung senkt Varianz bei Off‑Policy RL
Ein neues Ergebnis aus der Off‑Policy‑Evaluation zeigt, dass gezielt gestaltete Verhaltenspolitiken Daten liefern können, die zu deutlich geringeren Varianzen bei Rückkehrschätzungen führen. Das ist überraschend, denn b…