Forschung
On-Policy RL trifft Off-Policy Experten durch dynamisches Gewicht
Die beiden führenden Post‑Training‑Methoden für große Sprachmodelle – Supervised Fine‑Tuning (SFT) und Reinforcement Learning (RL) – werden…
arXiv – cs.LG