Forschung
RLHF‑Alignment bleibt flach: Gradient‑Analyse enthüllt die Ursache
Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflä…
arXiv – cs.LG