GoRL: Framework für Online RL mit generativen Policies
Reinforcement‑Learning‑Forscher stehen seit langem vor einem Dilemma: stabile, leicht zu optimierende Policies sind oft zu simpel, um die komplexen, multimodalen Aktionsverteilungen zu erfassen, die für anspruchsvolle S…