Zwei‑Stufen‑Ansatz für Sprachmodelle: Vielfalt zuerst, Qualität danach
Die Ausrichtung von Sprachmodellen an menschliche Präferenzen ist entscheidend für die Entwicklung zuverlässiger KI‑Systeme. Traditionell wird das Problem als Optimierung der Modellpolitik formuliert, um die erwartete Belohnung, die menschliche Vorlieben widerspiegelt, zu maximieren.
Neu wurde Direct Preference Optimization (DPO) vorgestellt, das die Politik direkt aus statischen Präferenzdaten anpasst. Durch die Einbindung von on‑policy‑Sampling – also Präferenzkandidaten, die während des Trainings erzeugt werden – soll die Ausrichtung weiter verbessert werden. Unsere Untersuchungen zeigen jedoch, dass on‑policy‑Daten nicht immer die optimale Wahl sind. Bei Llama‑3 kann on‑policy‑Daten die Effektivität um das Dreifache steigern, während bei Zephyr ein Rückgang um 0,4‑Mal beobachtet wird.
Um dieses Phänomen zu erklären, stellen wir die „Alignment‑Stage‑Assumption“ vor. Sie teilt den Ausrichtungsprozess in zwei Phasen auf: die Präferenz‑Injektion‑Phase, die von vielfältigen Daten profitiert, und die Präferenz‑Fine‑Tuning‑Phase, die hochwertige Daten bevorzugt. Wir haben sowohl theoretische als auch empirische Analysen durchgeführt, um die Grenzen dieser Phasen zu bestimmen, und einen effektiven Algorithmus entwickelt, der die Übergänge erkennt.
Die Validierung erfolgte an fünf Modellen (Llama, Zephyr, Phi‑2, Qwen, Pythia) und zwei Ausrichtungsmethoden (DPO, SLiC‑HF). Die Ergebnisse zeigen, dass die Zwei‑Stufen‑Annahme und die Messung der Grenzen allgemein anwendbar sind und die Leistung der Modelle signifikant verbessern können.