Breiter statt tiefer: Consensus Aggregation steigert Policy-Optimierung
In der neuesten Veröffentlichung auf arXiv wird ein zentrales Problem der Proximal Policy Optimization (PPO) aufgezeigt: Mehrere Epochen von geklipptem SGD führen dazu, dass die Policy-Updates immer weiter von der natür…