LPO: Neue Methode zur Präferenzoptimierung mit verbesserter Stabilität
Der neueste Beitrag auf arXiv (2508.14947v1) stellt Linear Preference Optimization (LPO) vor – ein innovatives Alignment‑Framework, das die bekannten Schwächen von Direct Preference Optimization (DPO) adressiert. DPO ist zwar beliebt, leidet aber häufig unter Over‑Fitting und Modellkollaps. LPO löst diese Probleme mit drei zentralen Neuerungen.