KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu Reasoning‑Verhalten zu trainieren. In der Praxis gestaltet sich die nachträgliche Optimierung dieser Modelle jedoch schwierig, weil die Belohnungen auf Trajektorienbasis selten und stark spärlich sind. Das führt zu unklaren Kreditzuweisungen und erschwert die Exploration, sodass die Lernpolitik häufig in einem sogenannten „Learning‑Cliff“ stecken bleibt.

Aktuelle On‑Policy‑Distillationsmethoden versuchen, diese Probleme zu mildern, indem sie eine dichte Lehrer‑Supervision einführen. Dabei wird jedoch gleichmäßig über alle generierten Trajektorien verteilt. Für reasoning‑intensive Aufgaben ist diese Vorgehensweise jedoch ungeeignet: Trajektorien von geringer Qualität entstehen häufig durch frühe logische Fehler, und die Distillation unter solchen fehlerhaften Bedingungen führt zu verrauschten, nicht ausgerichteten Gradienten.

Um diesen Herausforderungen zu begegnen, stellt KEPO (Knowledge‑Enhanced Preference Optimization) einen einheitlichen Post‑Training‑Ansatz vor. Er kombiniert zwei zentrale Komponenten: Erstens eine qualitätsgesteuerte On‑Policy‑Distillation, die die dichte Lehrer‑Anleitung ausschließlich auf hochqualitative Trajektorien anwendet. Zweitens eine wissensbasierte Exploration, die Hinweise aus einem Lehrer‑Modell nutzt, um gezielt belohnungspositive Trajektorien zu sampeln und so die Exploration zu stabilisieren.

In einer anspruchsvollen medizinischen Visual‑Question‑Answering‑Benchmark, der auf Single‑Source‑Generalization ausgelegt ist, demonstriert KEPO verbesserte Trainingsstabilität, kohärenteres Reasoning‑Verhalten und überlegene Leistungen außerhalb der Trainingsverteilung im Vergleich zu herkömmlichem RL und anderen Ansätzen.

Ähnliche Artikel