ICPO: Neue Methode steigert Lernleistung von Sprachmodellen
Die neueste Veröffentlichung auf arXiv (2511.21005v1) präsentiert die Intrinsic Confidence-Driven Group Relative Preference Optimization (ICPO), eine innovative Technik, die das Reinforcement Learning von Large Language Models (LLMs) deutlich verbessert. Durch die Kombination von selbstbewussten Wahrscheinlichkeiten der Modellantworten mit verifizierbaren Belohnungen schafft ICPO ein robustes Feedbacksystem, das die üblichen Schwächen von RLVR – wie grobkörnige Belohnungen, Rauschprobleme und ineffiziente Exploration – wirksam adressiert.