Forschung
Neues Reward‑Shaping: Agenten erkunden sicher Grenzen offline trainierter Daten
Offline‑Reinforcement‑Learning liefert robuste Policies für reale Anwendungen, doch die damit verbundene Pessimismus‑Tendenz hemmt die Fähi…
arXiv – cs.LG