Nested-ReFT: Effizientes RL für das Feintuning großer Sprachmodelle
Ein neues arXiv-Papier mit der Bezeichnung Nested-ReFT präsentiert einen innovativen Ansatz, um das Feintuning großer Sprachmodelle (LLMs) für anspruchsvolle Aufgaben wie mathematisches Denken deutlich effizienter zu gestalten. Der Kern der Methode liegt in der Kombination von Off‑Policy‑Reinforcement‑Learning und spekulativem Decoding, wodurch die Anzahl der erforderlichen Inferenzschritte während des Trainings drastisch reduziert wird.