Unkalibrierte Logik: GRPO führt zu Übervertrauen bei stochastischen Ergebnissen
Reinforcement‑Learning (RL) hat sich bereits als äußerst wirkungsvoll erwiesen, wenn Sprachmodelle in klar definierten, deterministischen Bereichen wie der Mathematik verbessert werden sollen. In einer neuen Untersuchung wird nun geprüft, ob dieselben RL‑Methoden auch in Bereichen mit zufälligen Ergebnissen – etwa bei wissenschaftlichen Experimenten – erfolgreich sind.