Forschung
M-GRPO: Stabile selbstüberwachende RL-Optimierung für LLMs dank Momentum
Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodel…
arXiv – cs.AI