Forschung
VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als führendes Verfahren zur Verbesserung der Argumentationsfähigkeit…
arXiv – cs.LG