Verhaltensoptimierung senkt Varianz bei Off‑Policy RL
Ein neues Ergebnis aus der Off‑Policy‑Evaluation zeigt, dass gezielt gestaltete Verhaltenspolitiken Daten liefern können, die zu deutlich geringeren Varianzen bei Rückkehrschätzungen führen. Das ist überraschend, denn bisher galt die Datensammlung auf‑Policy als optimal.