RLVR: Grenzen der Generalisierung bei mathematischem Denken – Zwei Fallstudien
Reinforcement Learning with Verifiable Rewards (RLVR) gilt als vielversprechender Ansatz, um große Sprachmodelle (LLMs) im mathematischen Denken zu verbessern. Doch wie gut kann RLVR wirklich neue Denkstrategien fördern, statt nur oberflächliche Heuristiken zu verstärken?