Re:Frame: Mit wenigen Experten‑Trajektorien Offline RL drastisch verbessern
Offline‑Reinforcement‑Learning (RL) kämpft häufig mit unvollständigen Daten, weil große Expertendatensätze schwer zu beschaffen sind. Dadurch haben Agenten nur begrenzte Möglichkeiten, aus schlechten oder inkonsistenten…