RLVR: Grenzen der Generalisierung bei mathematischem Denken – Zwei Fallstudien
Reinforcement Learning with Verifiable Rewards (RLVR) gilt als vielversprechender Ansatz, um große Sprachmodelle (LLMs) im mathematischen Denken zu verbessern. Doch wie gut kann RLVR wirklich neue Denkstrategien fördern…