BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung
In der Welt der großen Sprachmodelle (LLMs) ist die Stabilität beim Reinforcement Learning entscheidend. Traditionell sorgt das Clipping‑Verfahren von Proximal Policy Optimization (PPO) dafür, dass die Policy‑Updates innerhalb eines sicheren Bereichs bleiben. Doch die feste Begrenzung des Clippings wirkt sich besonders bei seltenen Aktionen negativ aus: Sie schränkt die Aufwärts‑Aktualisierung von niedriger Wahrscheinlichkeit stark ein, wodurch vielversprechende, hochvorteilhafte Strategien unterdrückt werden und die Entropie rasch zusammenbricht.
Um dieses Problem zu lösen, hat ein Forschungsteam Band‑constrained Policy Optimization (BandPO) entwickelt. BandPO ersetzt das klassische Clipping durch einen neuen Operator namens Band, der die durch f‑Divergenzen definierten Vertrauensbereiche in dynamische, probenahme‑bewusste Intervalle überträgt. Dadurch kann die Policy bei seltenen Aktionen flexibler wachsen, ohne die Stabilität zu gefährden.
Die theoretische Analyse zeigt, dass BandPO die explorativen Engpässe effektiv beseitigt. Die Umwandlung wird als konvexes Optimierungsproblem formuliert, das eine globale optimale Lösung garantiert. Für bestimmte Divergenzen lassen sich sogar geschlossene Formeln ableiten, was die Berechnung praktisch und effizient macht.
In umfangreichen Experimenten mit verschiedenen Modellen und Datensätzen hat BandPO konsequent die klassische Clipping‑Methode sowie die Variante Clip‑Higher übertroffen. Gleichzeitig verhindert es den schnellen Entropie‑Abfall, was zu stabileren und leistungsfähigeren Lernprozessen führt.