Unüberwachtes RL verbessert Denken – aber nur bei starken Modellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In den letzten Jahren haben große Sprachmodelle gezeigt, dass unüberwachtes Reinforcement Learning (RL) die Fähigkeit zum logischen Denken ohne externe Anleitung verbessern kann. Doch bislang ist unklar, ob diese Technik auch bei kleineren Modellen funktioniert, die weniger ausgeprägte Denkfähigkeiten besitzen.

Eine neue Studie untersucht systematisch, wie sich label‑free RL bei Modellen mit 0,5 B bis 7 B Parametern verhält. Die Ergebnisse zeigen, dass die Methode stark von der bereits vorhandenen Denkkompetenz des Basismodells abhängt. Bei schwächeren Modellen kann die Leistung sogar unter das Ausgangsniveau fallen.

Der Grund liegt darin, dass kleinere Modelle nicht in der Lage sind, lange oder vielfältige „Chain‑of‑Thought“-Erklärungen zu erzeugen, die für eine effektive Selbstreflexion nötig sind. Zudem spielt die Schwierigkeit der Trainingsdaten eine entscheidende Rolle.

Um diese Hindernisse zu überwinden, schlägt die Arbeit einen einfachen, aber wirkungsvollen Ansatz vor: Curriculum Learning, bei dem die Aufgabenprogression von einfach zu schwierig gestaltet wird, kombiniert mit einer Maskierung von Rollouts, die keine Mehrheit erzielen. Zusätzlich wird ein Daten‑Curation‑Pipeline entwickelt, um Beispiele mit festgelegter Schwierigkeit zu generieren.

Der neue Ansatz liefert konsistente Verbesserungen über alle Modellgrößen hinweg und ebnet damit den Weg zu robusteren unüberwachten RL‑Methoden, die auch ressourcenbeschränkte Modelle in ihrer Denkfähigkeit stärken können.

Der zugehörige Code ist öffentlich zugänglich unter https://github.com/BorealisAI/CuMa.

Ähnliche Artikel