Mehr Präferenzvarianz = bessere DPO-Performance bei LLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Direct Preference Optimization (DPO) hat sich als zentrales Verfahren etabliert, um große Sprachmodelle (LLMs) anhand menschlicher Präferenzen zu steuern. Da das Sammeln solcher Präferenzdaten jedoch teuer und zeitaufwendig ist, suchen Forscher nach Wegen, die Notwendigkeit an Annotationen zu reduzieren.

In einer aktuellen Studie wird die Rolle der Präferenzvarianz (PVar) – die Streuung der Modellpräferenzen bei der Gegenüberstellung zweier Antworten – eingehend untersucht. Theoretisch wird gezeigt, dass die Norm des DPO‑Gradienten für ein beliebiges Prompt durch die PVar dieses Prompts begrenzt ist. Das bedeutet: Prompts mit geringer PVar führen zu sehr kleinen Gradientenupdates und sind daher weniger lehrreich.

Die Hypothese wurde praktisch getestet, indem LLMs mit Präferenzen eines Reward‑Modells feinjustiert wurden. Auf den Benchmarks AlpacaEval 2.0 und Arena‑Hard zeigte sich, dass Prompts mit hoher PVar deutlich bessere Ergebnisse erzielen als zufällig ausgewählte oder niedrige PVar‑Prompts. Interessanterweise bleibt diese Auswahlmethode auch dann robust, wenn kleinere Reward‑Modelle (1 Billion bzw. 3 Billion Parameter) zur Auswahl herangezogen werden.

Ein separater Test mit den ursprünglichen menschlichen Annotationen aus dem UltraFeedback‑Datensatz verdeutlicht die praktische Relevanz: Durch das Training ausschließlich mit den Top‑10 % der Prompts mit höchster PVar erreicht man eine bessere Bewertung als bei der Nutzung des gesamten Datensatzes. Dies unterstreicht, dass Präferenzvarianz ein entscheidendes Signal dafür ist, welche Beispiele für eine effiziente LLM‑Ausrichtung besonders wertvoll sind.

Ähnliche Artikel