Mehr Präferenzvarianz = bessere DPO-Performance bei LLMs
Direct Preference Optimization (DPO) hat sich als zentrales Verfahren etabliert, um große Sprachmodelle (LLMs) anhand menschlicher Präferenzen zu steuern. Da das Sammeln solcher Präferenzdaten jedoch teuer und zeitaufwe…