Forschung
OPT-350M: SFT + DPO steigern Sicherheit und Hilfsbereitschaft
Eine neue Studie auf arXiv (2509.09055v1) untersucht, wie sich die Techniken Supervised Fine‑Tuning (SFT) und Direct Preference Optimizatio…
arXiv – cs.AI