Forschung
Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multim…
arXiv – cs.LG