PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung
In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainingsdaten anzupassen und verlieren dabei die Fähigkeit, auf neue Situationen zu generalisieren. Traditionelle Direct Preference Optimization (DPO)‑Ansätze stoßen dabei an ihre Grenzen, weil sie oft die gesamte Datenverteilung kennen oder ein explizites Belohnungsmodell lernen müssen.