Forschung
SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst
Direct Preference Optimization (DPO) bietet eine skalierbare Alternative zu RLHF, um große Sprachmodelle anhand von Paarpräferenzen auszuri…
arXiv – cs.LG