CURE verhindert Entropieabfall bei Sprachmodellen – neue RLVR-Methode
In den letzten Jahren hat die Kombination aus Reinforcement Learning und verifizierten Belohnungen (RLVR) die kognitiven Fähigkeiten großer Sprachmodelle deutlich verbessert. Doch die bisher üblichen RLVR-Workflows nutzen bei jeder Sampling-Phase dieselben statischen Startzustände aus dem Trainingsdatensatz. Das führt zu stark deterministischen und wenig vielfältigen Modellverhalten, was schließlich zu einem schnellen Entropieabfall und zu stagnierenden Leistungssteigerungen führt.