Evolution Strategies vs. GRPO: Gleiche Genauigkeit, unterschiedliche Geometrie bei LLM-Post-Training
In einer aktuellen Studie wurden die beiden populären Ansätze Evolution Strategies (ES) und Group Relative Policy Optimization (GRPO) im Kontext des Post-Trainings von großen Sprachmodellen (LLM) gegeneinander getestet…