GOPO: Optimierung von Policies mit Rang-basierten Belohnungen
Die neue Methode GOPO (Group Ordinal Policy Optimization) nutzt bei der Optimierung von KI-Modellen ausschließlich die Rangfolge von Belohnungen und ignoriert deren absolute Werte. Dadurch wird die Kluft zwischen dem, w…