MixDPO: Präferenzstärke modelliert – neue Methode für pluralistische Alignment
In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die Mixed Logit Direct Preference Optimization (MixDPO), eine Weiterentwicklung des Direct Preference Optimization (DPO). MixDPO berücksichtigt, dass…