Forschung
Verhaltensoptimierung senkt Varianz bei Off‑Policy RL
Ein neues Ergebnis aus der Off‑Policy‑Evaluation zeigt, dass gezielt gestaltete Verhaltenspolitiken Daten liefern können, die zu deutlich g…
arXiv – cs.LG