Forschung
SODA: Semi On‑Policy Distillation für große Sprachmodelle
Die Distillation von Black‑Box‑Modellen für große Sprachmodelle steht vor einem strengen Kompromiss: Off‑Policy‑Methoden wie die sequentiel…
arXiv – cs.LG