Differential Voting: Neue Verlustfunktionen für Präferenzaggregation
In der Welt des Reinforcement Learning mit menschlichem Feedback (RLHF) werden die vielfältigen Präferenzen der Nutzer oft zu einer einzigen Nutzenfunktion zusammengefasst. Dieser Prozess lässt sich als eine Art Abstimmung verstehen, bei der die Art der Verlustfunktion das Ergebnis bestimmt.
Die klassische Arrow’sche Unmöglichkeitstheorie zeigt, dass unterschiedliche Aggregationsmechanismen verschiedene gewünschte Eigenschaften erfüllen. Dennoch greifen die meisten bestehenden Ansätze auf das Bradley‑Terry‑Luce‑Modell zurück, das dem Borda‑Count‑Stimmverfahren entspricht. Dadurch bleiben wichtige axiomatische Eigenschaften verborgen und die zugrunde liegenden normativen Annahmen unklar.
Die neue Methode „Differential Voting“ bietet einen einheitlichen Rahmen, der für jede Instanz differenzierbare Verlustfunktionen erzeugt, deren Optima eindeutig klassischen Stimmregeln entsprechen. Für die Mehrheit‑basierten Aggregation (BTL), Copeland und Kemeny wurden differenzierbare Surrogates entwickelt und deren Kalibrierung, Gradientfelder sowie Grenzverhalten bei Null‑Smoothing‑Parametern analysiert.
Die Autoren zeigen, dass jede Verlustfunktion konsistent mit der jeweiligen sozialen Wahlregel ist und genau bestimmen, welche Axiome sie erfüllt oder verletzt. Dabei wird deutlich, wie Designentscheidungen in der Verlustgeometrie – etwa Margensensitivität oder Grenzkonzentration – direkt das normative Aggregationsverhalten steuern.
Durch diese Transparenz wird die Aggregation von Präferenzen zu einem expliziten und kontrollierbaren Designprozess. Differential Voting eröffnet damit neue Möglichkeiten, die Vielfalt menschlicher Präferenzen in RLHF und darüber hinaus systematisch zu berücksichtigen.