Forschung
IR$^3$: Kontrastives Inverse Reinforcement Learning gegen Reward‑Hacking
Reinforcement Learning from Human Feedback (RLHF) hat die Ausrichtung großer Sprachmodelle revolutioniert, birgt jedoch das Risiko von Rewa…
arXiv – cs.AI