PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung
In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainingsdaten anzupassen und verlieren dabei die Fähigkeit, auf neue Situationen zu generalisieren. Traditionelle Direct Preference Optimization (DPO)‑Ansätze stoßen dabei an ihre Grenzen, weil sie oft die gesamte Datenverteilung kennen oder ein explizites Belohnungsmodell lernen müssen.
Die neue Methode PEPO – Pessimistic Ensemble based Preference Optimization – löst dieses Problem elegant. PEPO arbeitet in einem einzigen Schritt, ähnlich wie DPO, aber ohne Annahmen über die zugrunde liegende Datenverteilung oder die Notwendigkeit eines Belohnungsmodells. Stattdessen nutzt PEPO ein Ensemble von Präferenzoptimierungspolitiken, die jeweils auf unterschiedlichen, nicht überlappenden Datenteilen trainiert werden.
Der Schlüssel liegt in der pessimistischen Aggregation: Die einzelnen Politiken werden so kombiniert, dass nur die Übereinstimmungen zwischen ihnen berücksichtigt werden. Diese „Worst‑Case“-Konstruktion sorgt dafür, dass das Endmodell nur dann stark wird, wenn alle Teilmodelle ein gemeinsames Signal liefern, wodurch die Gefahr der Überoptimierung stark reduziert wird.
Im tabellarischen Setting liefert PEPO theoretische Garantien für die Stichprobenkomplexität, die ausschließlich von einem einzigen‑Politik‑Konzentrierungskoeffizienten abhängen. Damit umgeht es das Problem der all‑Policy‑Konzentrierung, das bei DPO‑ähnlichen Algorithmen zu schwächeren Bounds führt. Die theoretischen Resultate werden durch überzeugende Experimente bestätigt, die zeigen, dass PEPO die Einfachheit und Praktikabilität von DPO beibehält, gleichzeitig aber deutlich robuster gegenüber Überoptimierung ist.