Forschung
RLVR: Grenzen der Generalisierung bei mathematischem Denken – Zwei Fallstudien
Reinforcement Learning with Verifiable Rewards (RLVR) gilt als vielversprechender Ansatz, um große Sprachmodelle (LLMs) im mathematischen D…
arXiv – cs.LG