Gefahr der Präferenz: Warum GRPO bei ordinalen Belohnungen scheitert
Die neue Studie aus dem arXiv-Preprint 2511.04439v1 beleuchtet ein zentrales Problem bei der Anwendung von Group-relative Policy Optimization (GRPO) in der Feinabstimmung großer Sprachmodelle (LLMs). GRPO ist wegen sein…