KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning
Reinforcement Learning (RL) hat sich als vielversprechendes Verfahren etabliert, um große Sprach- und Vision‑Language‑Modelle explizit zu Reasoning‑Verhalten zu trainieren. In der Praxis gestaltet sich die nachträgliche…