OPT-350M: SFT + DPO steigern Sicherheit und Hilfsbereitschaft
Eine neue Studie auf arXiv (2509.09055v1) untersucht, wie sich die Techniken Supervised Fine‑Tuning (SFT) und Direct Preference Optimization (DPO) auf die Sicherheit und Hilfsbereitschaft des Sprachmodells OPT‑350M ausw…