Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework
Reinforcement Learning from Human Feedback (RLHF) ist ein zentrales Verfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Dabei besteht jedoch die Gefahr der sogenannten Reward‑Overoptimierung: Das Po…