Forschung
SofT-GRPO: Soft-Thinking-LLMs übertreffen klassische Token-basierte RL-Methoden
Ein neuer Ansatz namens SofT-GRPO hat die Forschung im Bereich der großen Sprachmodelle (LLMs) vorangetrieben, indem er das Soft-Thinking-P…
arXiv – cs.AI