FA‑DPO: Robustes Verfahren gegen Präferenzumkehr in RLHF
In der jüngsten Veröffentlichung auf arXiv (Arbeitstitel: „When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF“) wird ein neuer Ansatz vorgestellt, der das Problem der Präferenzumkehr – also das häuf…