Forschung
MMR-GRPO beschleunigt mathematisches Training durch diversitätsbasierte Belohnung
Die neue Methode MMR‑GRPO kombiniert die bewährte Group Relative Policy Optimization (GRPO) mit Maximal Marginal Relevance, um die Belohnun…
arXiv – cs.LG