Weniger Fragen, mehr Erkenntnis: Unsicherheitskonsistenz verbessert RLVR
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben die mathematische Problemlösung durch Reinforcement Learning with Verifiable Reward (RLVR) deutlich vorangebracht. Doch die dafür benötigten Annotationsbu…