IIB-LPO: Neue Methode steigert LLM-Exploration und Genauigkeit
In der Welt des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für große Sprachmodelle (LLM) hat die sogenannte Exploration Collapse lange die Fortschritte gehemmt. Zufällige Rollouts führen häufig zu sem…