Neue Gewichtungsstrategien verbessern Präferenzoptimierung von LLMs
Fine‑Tuning ist ein wesentlicher Schritt, um große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen. Das neue Verfahren Multiple‑Reference Preference Optimization (MRPO) baut auf Direct Preference Optimization…