Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeit von großen Sprachmodellen (LLMs) zur logischen Argumentation deutlich verbessert. Dennoch bleibt die Exploration ineffizient, wenn die Anza…