Forschung
Evolution Strategies vs. GRPO: Gleiche Genauigkeit, unterschiedliche Geometrie bei LLM-Post-Training
In einer aktuellen Studie wurden die beiden populären Ansätze Evolution Strategies (ES) und Group Relative Policy Optimization (GRPO) im Ko…
arXiv – cs.LG