Forschung
Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeit von großen Sprachmodellen (LLMs) zur logischen Argumentatio…
arXiv – cs.LG