KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning
Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu Reasoning‑Verhalten zu trainieren. In der Praxis gestaltet sich die nachträgliche…
- Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu Reasoning‑Verhalten zu trainier…
- In der Praxis gestaltet sich die nachträgliche Optimierung dieser Modelle jedoch schwierig, weil die Belohnungen auf Trajektorienbasis selten und stark spärlich sind.
- Das führt zu unklaren Kreditzuweisungen und erschwert die Exploration, sodass die Lernpolitik häufig in einem sogenannten „Learning‑Cliff“ stecken bleibt.
Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu Reasoning‑Verhalten zu trainieren. In der Praxis gestaltet sich die nachträgliche Optimierung dieser Modelle jedoch schwierig, weil die Belohnungen auf Trajektorienbasis selten und stark spärlich sind. Das führt zu unklaren Kreditzuweisungen und erschwert die Exploration, sodass die Lernpolitik häufig in einem sogenannten „Learning‑Cliff“ stecken bleibt.
Aktuelle On‑Policy‑Distillationsmethoden versuchen, diese Probleme zu mildern, indem sie eine dichte Lehrer‑Supervision einführen. Dabei wird jedoch gleichmäßig über alle generierten Trajektorien verteilt. Für reasoning‑intensive Aufgaben ist diese Vorgehensweise jedoch ungeeignet: Trajektorien von geringer Qualität entstehen häufig durch frühe logische Fehler, und die Distillation unter solchen fehlerhaften Bedingungen führt zu verrauschten, nicht ausgerichteten Gradienten.
Um diesen Herausforderungen zu begegnen, stellt KEPO (Knowledge‑Enhanced Preference Optimization) einen einheitlichen Post‑Training‑Ansatz vor. Er kombiniert zwei zentrale Komponenten: Erstens eine qualitätsgesteuerte On‑Policy‑Distillation, die die dichte Lehrer‑Anleitung ausschließlich auf hochqualitative Trajektorien anwendet. Zweitens eine wissensbasierte Exploration, die Hinweise aus einem Lehrer‑Modell nutzt, um gezielt belohnungspositive Trajektorien zu sampeln und so die Exploration zu stabilisieren.
In einer anspruchsvollen medizinischen Visual‑Question‑Answering‑Benchmark, der auf Single‑Source‑Generalization ausgelegt ist, demonstriert KEPO verbesserte Trainingsstabilität, kohärenteres Reasoning‑Verhalten und überlegene Leistungen außerhalb der Trainingsverteilung im Vergleich zu herkömmlichem RL und anderen Ansätzen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.