Unkalibrierte Logik: GRPO führt zu Übervertrauen bei stochastischen Ergebnissen
Reinforcement‑Learning (RL) hat sich bereits als äußerst wirkungsvoll erwiesen, wenn Sprachmodelle in klar definierten, deterministischen Bereichen wie der Mathematik verbessert werden sollen. In einer neuen Untersuchun…