Ein einheitlicher Blick auf Abdeckung in linearer Off-Policy-Bewertung
Off‑Policy‑Evaluation (OPE) ist ein zentrales Problem im Reinforcement Learning, bei dem die Zielwertfunktion anhand von Daten, die unter einer anderen Politik gesammelt wurden, geschätzt werden soll. In der linearen Va…