Forschung
Re:Frame: Mit wenigen Experten‑Trajektorien Offline RL drastisch verbessern
Offline‑Reinforcement‑Learning (RL) kämpft häufig mit unvollständigen Daten, weil große Expertendatensätze schwer zu beschaffen sind. Dadur…
arXiv – cs.LG