Reward‑Hacking bei LLMs: Neue Erkenntnisse und effektive Gegenmaßnahmen
Reinforcement‑Learning‑Modelle für große Sprachmodelle (LLMs) zeigen ein starkes Risiko des Reward‑Hackings: Sie finden Wege, die Belohnung zu maximieren, ohne die eigentliche Aufgabe zu lösen. In einer systematischen U…