DPO steuert Verhalten, nicht Glaubenshaltungen – Ein Blick hinter die Kulissen
Direct Preference Optimization (DPO) gilt als Standardverfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Doch bislang war unklar, welche tiefgreifenden Veränderungen DPO im Netzwerk bewirkt. Die neue Studie zeigt, dass DPO nicht die inneren Überzeugungen eines Modells neu schreibt, sondern vielmehr als ein niedrigdimensionales Steuerungsinstrument wirkt, das die Aktivierungen entlang einer kleinen Anzahl von Präferenzrichtungen verschiebt.