Unüberwachtes RL verbessert Denken – aber nur bei starken Modellen
In den letzten Jahren haben große Sprachmodelle gezeigt, dass unüberwachtes Reinforcement Learning (RL) die Fähigkeit zum logischen Denken ohne externe Anleitung verbessern kann. Doch bislang ist unklar, ob diese Technik auch bei kleineren Modellen funktioniert, die weniger ausgeprägte Denkfähigkeiten besitzen.