Neue Methode knackt Exploration-Blockade: Rubric-Scaffolded RL für LLM-Logik
In den letzten Jahren haben große Sprachmodelle (LLMs) gezeigt, dass Reinforcement Learning (RL) die Entwicklung von Denkfähigkeiten fördern kann. Ein zentrales Problem bleibt jedoch, dass RL nur dann besser wird, wenn es aus qualitativ hochwertigen Beispielen lernt – und diese Beispiele selbst entstehen erst durch die Exploration des Modells. Dadurch entsteht ein Teufelskreis: Was nicht erkundet wird, kann nicht gelernt werden.