Gefahr der Präferenz: Warum GRPO bei ordinalen Belohnungen scheitert
Die neue Studie aus dem arXiv-Preprint 2511.04439v1 beleuchtet ein zentrales Problem bei der Anwendung von Group-relative Policy Optimization (GRPO) in der Feinabstimmung großer Sprachmodelle (LLMs). GRPO ist wegen seiner Einfachheit ein beliebtes Werkzeug, um LLMs zu Experten für spezifische Aufgaben zu machen. Doch die gleiche Einfachheit führt dazu, dass das Verfahren bei der Nutzung ordinaler Belohnungen – also bei nicht-binären, teilweise positiven Rückmeldungen – versagt.
Der Kern des Problems liegt im gruppenbezogenen Basiswert, den GRPO verwendet. Dieser Basiswert kann in Situationen, in denen ein Trajektorie-Fehler auftritt, fälschlicherweise einen positiven Vorteil zuweisen. Das führt dazu, dass das Modell falsche Verhaltensweisen verstärkt, anstatt sie zu korrigieren. Die Autoren zeigen, dass diese Schwäche die Lernstabilität beeinträchtigt und die Generalisierung auf unbekannte Aufgaben einschränkt.
Um dieses Defizit zu beheben, stellen die Forscher Correctness Relative Policy Optimization (CoRPO) vor. CoRPO nutzt einen adaptiven Basiswert, der einen Mindestqualitätsschwellenwert erzwingt. Dadurch werden fehlerhafte Lösungen niemals positiv belohnt. Sobald die Policy diesen Schwellenwert konstant erreicht, wechselt der Basiswert automatisch in einen „relative Präferenz“-Modus, der das Modell dazu antreibt, optimale Lösungen zu finden, statt nur akzeptable Ergebnisse zu liefern.
Die Wirksamkeit von CoRPO wurde an einer Code‑Verifikationsaufgabe getestet. Dort zeigte sich eine stabilere Konvergenz und eine verbesserte Generalisierung außerhalb des Trainingsdatensatzes. Die Arbeit markiert einen wichtigen Schritt in der Weiterentwicklung von LLMs, die durch Reinforcement Learning echte neue Fähigkeiten erlernen können – ein Prozess, der von binären zu ordinalen und schließlich zu dichten, schrittweisen Rückmeldungen übergeht.