M-GRPO: Stabile selbstüberwachende RL-Optimierung für LLMs dank Momentum
Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) durch selbstüberwachtes Reinforcement Learning (RL) zu steigern – und…