Forschung
Neuer Ansatz: Alignment-Weighted DPO stärkt Sicherheit von Sprachmodellen
In den letzten Jahren haben Techniken wie Supervised Fine‑Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF) und Direct Prefer…
arXiv – cs.AI