Differential Voting: Neue Verlustfunktionen für Präferenzaggregation
In der Welt des Reinforcement Learning mit menschlichem Feedback (RLHF) werden die vielfältigen Präferenzen der Nutzer oft zu einer einzigen Nutzenfunktion zusammengefasst. Dieser Prozess lässt sich als eine Art Abstimm…