Forschung
SAM im Logit‑Raum: Effiziente Verbesserung von Direct Preference Optimization
Direct Preference Optimization (DPO) hat sich als beliebter Ansatz etabliert, um vortrainierte Sprachmodelle an menschliche Präferenzen anz…
arXiv – cs.LG