M-GRPO: Stabile selbstüberwachende RL-Optimierung für LLMs dank Momentum

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neuer Ansatz namens M‑GRPO (Momentum‑Anchored Group Relative Policy Optimization) verspricht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) durch selbstüberwachtes Reinforcement Learning (RL) zu steigern – und das ohne teure, menschlich annotierte Daten.

Derzeit leiden bestehende RL‑Methoden unter einem kritischen Problem: bei langen Trainingshorizonten bricht die Policy plötzlich zusammen und die Leistung fällt drastisch. Ein häufig eingesetzter Trick, die Anzahl der Rollouts zu erhöhen, verzögert lediglich den Zusammenbruch, verhindert ihn aber nicht.

M‑GRPO löst dieses Problem, indem es ein langsam wandelndes Momentum‑Modell nutzt, das als stabiler Trainingsziel dient. Gleichzeitig wird ein weiteres Phänomen erkannt: die Policy‑Entropie kann rasch zusammenbrechen, was zu einer zu früh festgelegten, suboptimalen Policy führt.

Um diesem Effekt entgegenzuwirken, wird ein adaptiver Filter auf Basis des Interquartilsbereichs (IQR) eingeführt. Dieser Filter entfernt dynamisch Trajektorien mit niedriger Entropie, sodass die wesentliche Policy‑Diversität erhalten bleibt.

Umfangreiche Experimente an mehreren Reasoning‑Benchmarks zeigen, dass M‑GRPO die Trainingsstabilität deutlich verbessert und der IQR‑Filter die vorzeitige Konvergenz verhindert. Die Kombination dieser beiden Innovationen führt zu einer überlegenen Stabilität und zum aktuellen Stand der Technik in der selbstüberwachten RL‑Optimierung für LLMs.

Ähnliche Artikel