Forschung
Mehr Präferenzvarianz = bessere DPO-Performance bei LLMs
Direct Preference Optimization (DPO) hat sich als zentrales Verfahren etabliert, um große Sprachmodelle (LLMs) anhand menschlicher Präferen…
arXiv – cs.AI