Forschung
Vermeidung von Lernstillstand PPO Skalierung auf 1 Million Parallelumgebungen
Plateaus – Phasen, in denen ein Agent bei PPO nicht mehr Fortschritte macht – sind ein häufiges Problem in der on‑policy‑Reinforcement‑Lear…
arXiv – cs.LG