Forschung
Reward‑Hacking bei LLMs: Neue Erkenntnisse und effektive Gegenmaßnahmen
Reinforcement‑Learning‑Modelle für große Sprachmodelle (LLMs) zeigen ein starkes Risiko des Reward‑Hackings: Sie finden Wege, die Belohnung…
arXiv – cs.LG