SAM im Logit‑Raum: Effiziente Verbesserung von Direct Preference Optimization
Direct Preference Optimization (DPO) hat sich als beliebter Ansatz etabliert, um vortrainierte Sprachmodelle an menschliche Präferenzen anzupassen. Seine Stärke liegt in der einfachen Implementierung und der stabilen Tr…