SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neuer Ansatz namens SofT-GRPO hat die Forschung im Bereich der großen Sprachmodelle (LLMs) vorangetrieben, indem er das Soft-Thinking-Paradigma mit Reinforcement Learning (RL) kombiniert. Soft-Thinking ermöglicht es Modellen, über kontinuierliche Wahrscheinlichkeiten statt über diskrete Token zu denken, was in bestimmten Szenarien zu besseren Ergebnissen führen kann.

Traditionell wurde die Chain-of-Thought (CoT)-Methode, die auf diskrete Token setzt, erfolgreich mit Policy-Optimierungsalgorithmen wie Group Relative Policy Optimization (GRPO) verstärkt. Die Übertragung dieser Technik auf Soft-Thinking war jedoch schwierig, weil die Einbindung von Stochasticität in die kontinuierlichen Tokens und die anschließende Aktualisierung der Soft-Thinking-Politik komplex ist.

Der neue SofT-GRPO-Algorithmus löst dieses Problem, indem er Gumbel-Rauschen in die Logits einführt und die Gumbel-Softmax-Technik nutzt, um sicherzustellen, dass die Soft-Thinking-Token im vortrainierten Einbettungsraum bleiben. Zusätzlich wird die Reparameterisierungstechnik im Policy-Gradient-Ansatz verwendet, um die Lernschritte stabiler zu gestalten.

In Experimenten mit Basis-LLMs von 1,5 B bis 7 B Parametern zeigte SofT-GRPO eine leichte Verbesserung gegenüber dem klassischen GRPO bei Pass@1 (+0,13 % durchschnittliche Genauigkeit) und einen deutlich höheren Gewinn bei Pass@32 (+2,19 % durchschnittliche Genauigkeit). Diese Ergebnisse deuten darauf hin, dass Soft-Thinking in Kombination mit SofT-GRPO das Potenzial hat, die Leistungsfähigkeit von LLMs weiter zu steigern.

Der komplette Code sowie die vortrainierten Gewichte sind auf GitHub verfügbar unter https://github.com/zz1358m/SofT-GRPO-master. Forscher und Entwickler können die Methode leicht in ihre eigenen Projekte integrieren und weiterentwickeln.

Ähnliche Artikel