Von RLHF zu direktem Alignment: Theoretische Einheit für Präferenzlernen LLMs
Die sichere und nützliche Nutzung großer Sprachmodelle hängt davon ab, wie gut sie menschliche Präferenzen widerspiegeln. Während Reinforcement Learning from Human Feedback (RLHF) lange Zeit das vorherrschende Verfahren…