MMR-GRPO beschleunigt mathematisches Training durch diversitätsbasierte Belohnung
Die neue Methode MMR‑GRPO kombiniert die bewährte Group Relative Policy Optimization (GRPO) mit Maximal Marginal Relevance, um die Belohnungen bei der Trainingsphase gezielt nach der Vielfalt der generierten Lösungen zu gewichten. Dadurch werden redundante, semantisch ähnliche Antworten weniger stark berücksichtigt, während vielfältige Lösungen stärker in die Lernschritte einfließen.
Durch diese gezielte Reweighting‑Strategie konnten die Entwickler die Anzahl der benötigten Trainingsschritte um durchschnittlich 47,9 % reduzieren und die gesamte Trainingszeit um 70,2 % verkürzen – ohne die Spitzenleistung zu beeinträchtigen. Die Optimierung wurde an drei Modellgrößen (1,5 B, 7 B, 8 B), drei GRPO‑Varianten und fünf mathematischen Benchmark‑Aufgaben getestet und zeigte konsistente Verbesserungen.
Die Autoren planen, den Code, die trainierten Modelle und die experimentellen Protokolle öffentlich zugänglich zu machen, um die Forschungsgemeinschaft bei der Weiterentwicklung von mathematischen Sprachmodellen zu unterstützen.