GOPO: Optimierung von Policies mit Rang-basierten Belohnungen
Die neue Methode GOPO (Group Ordinal Policy Optimization) nutzt bei der Optimierung von KI-Modellen ausschließlich die Rangfolge von Belohnungen und ignoriert deren absolute Werte. Dadurch wird die Kluft zwischen dem, was ein Belohnungsmodell lernt – relative Präferenzen – und dem, was die Policy‑Optimierung tatsächlich benötigt – absolute Belohnungen – geschlossen. Besonders in Bereichen, in denen Belohnungen nicht verifizierbar sind, wie z. B. Zusammenfassungen, Befolgen von Anweisungen oder Chat‑Completion, führt dies zu deutlich besseren Ergebnissen. GOPO erzielt höhere Trainings‑ und Validierungsbelohnungen, liefert über die meisten Zwischenschritte hinweg bessere Bewertungen durch LLM‑Judges und erreicht vergleichbare Policy‑Qualität in deutlich weniger Trainingsschritten als der bisherige Ansatz GRPO. Die Autoren demonstrieren diese Verbesserungen über verschiedene Aufgaben und Modellgrößen hinweg.