Neue Methode knackt Exploration-Blockade: Rubric-Scaffolded RL für LLM-Logik
In den letzten Jahren haben große Sprachmodelle (LLMs) gezeigt, dass Reinforcement Learning (RL) die Entwicklung von Denkfähigkeiten fördern kann. Ein zentrales Problem bleibt jedoch, dass RL nur dann besser wird, wenn…