On-Policy RL trifft Off-Policy Experten durch dynamisches Gewicht
Die beiden führenden Post‑Training‑Methoden für große Sprachmodelle – Supervised Fine‑Tuning (SFT) und Reinforcement Learning (RL) – werden in der neuen Studie CHORD zu einem einheitlichen Ansatz verschmolzen. Dabei wir…