Forschung
GoRL: Framework für Online RL mit generativen Policies
Reinforcement‑Learning‑Forscher stehen seit langem vor einem Dilemma: stabile, leicht zu optimierende Policies sind oft zu simpel, um die k…
arXiv – cs.LG