MMR-GRPO beschleunigt mathematisches Training durch diversitätsbasierte Belohnung
Die neue Methode MMR‑GRPO kombiniert die bewährte Group Relative Policy Optimization (GRPO) mit Maximal Marginal Relevance, um die Belohnungen bei der Trainingsphase gezielt nach der Vielfalt der generierten Lösungen zu…