Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen
Die jüngste Arbeit auf arXiv präsentiert einen bedeutenden Fortschritt in der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Vorlieben. Während die bisherige Methode des Direct Preference Optimization (DPO) auf…