Reinforcement Learning Alignment: Grenzen der Generalisierung enthüllt
Die Sicherheit großer Sprachmodelle beruht auf Alignment‑Techniken wie Reinforcement Learning from Human Feedback (RLHF). Neue theoretische Untersuchungen zeigen jedoch, dass RL-basierte Trainingsverfahren keine neuen F…