Gefahr der Präferenz: Warum GRPO bei ordinalen Belohnungen scheitert
Die neue Studie aus dem arXiv-Preprint 2511.04439v1 beleuchtet ein zentrales Problem bei der Anwendung von Group-relative Policy Optimization (GRPO) in der Feinabstimmung großer Sprachmodelle (LLMs). GRPO ist wegen seiner Einfachheit ein beliebtes Werkzeug, um LLMs zu Experten für spezifische Aufgaben zu machen. Doch die gleiche Einfachheit führt dazu, dass das Verfahren bei der Nutzung ordinaler Belohnungen – also bei nicht-binären, teilweise positiven Rückmeldungen – versagt.