Forschung
Differential Voting: Neue Verlustfunktionen für Präferenzaggregation
In der Welt des Reinforcement Learning mit menschlichem Feedback (RLHF) werden die vielfältigen Präferenzen der Nutzer oft zu einer einzige…
arXiv – cs.AI