Neues Reward‑Shaping: Agenten erkunden sicher Grenzen offline trainierter Daten
Offline‑Reinforcement‑Learning liefert robuste Policies für reale Anwendungen, doch die damit verbundene Pessimismus‑Tendenz hemmt die Fähigkeit von Agenten, online neue Daten zu sammeln. Durch die Inspiration aus siche…