Entropy Ratio Clipping: Globale Beschränkung stabilisiert RL
In der Post‑Training‑Phase von großen Sprachmodellen kommt Reinforcement Learning (RL) zum Einsatz, um die Fähigkeiten und die Ausrichtung der Modelle zu verbessern. Das off‑policy‑Training führt jedoch häufig zu einer…