PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung
In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainingsdaten anzupassen und verlieren dabei die Fähigkeit, auf neue Situationen zu gene…