M-GRPO: Stabile selbstüberwachende RL-Optimierung für LLMs dank Momentum
Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) durch selbstüberwachtes Reinforcement Learning (RL) zu steigern – und…
- Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) durch selbstüberwach…
- Derzeit leiden bestehende RL‑Methoden unter einem kritischen Problem: bei langen Trainingshorizonten bricht die Policy plötzlich zusammen und die Leistung fällt drastisc…
- Ein häufig eingesetzter Trick, die Anzahl der Rollouts zu erhöhen, verzögert lediglich den Zusammenbruch, verhindert ihn aber nicht.
Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) durch selbstüberwachtes Reinforcement Learning (RL) zu steigern – und das ohne teure, menschlich annotierte Daten.
Derzeit leiden bestehende RL‑Methoden unter einem kritischen Problem: bei langen Trainingshorizonten bricht die Policy plötzlich zusammen und die Leistung fällt drastisch. Ein häufig eingesetzter Trick, die Anzahl der Rollouts zu erhöhen, verzögert lediglich den Zusammenbruch, verhindert ihn aber nicht.
M‑GRPO löst dieses Problem, indem es ein langsam wandelndes Momentum‑Modell nutzt, das als stabiler Trainingsziel dient. Gleichzeitig wird ein weiteres Phänomen erkannt: die Policy‑Entropie kann rasch zusammenbrechen, was zu einer zu früh festgelegten, suboptimalen Policy führt.
Um diesem Effekt entgegenzuwirken, wird ein adaptiver Filter auf Basis des Interquartilsbereichs (IQR) eingeführt. Dieser Filter entfernt dynamisch Trajektorien mit niedriger Entropie, sodass die wesentliche Policy‑Diversität erhalten bleibt.
Umfangreiche Experimente an mehreren Reasoning‑Benchmarks zeigen, dass M‑GRPO die Trainingsstabilität deutlich verbessert und der IQR‑Filter die vorzeitige Konvergenz verhindert. Die Kombination dieser beiden Innovationen führt zu einer überlegenen Stabilität und zum aktuellen Stand der Technik in der selbstüberwachten RL‑Optimierung für LLMs.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.