Forschung
On-Policy Distillation neu bewertet: Fehlerquellen erkannt, Lösungen entwickelt
On‑Policy Distillation (OPD) gilt als vielversprechende Methode für die Nachschulung großer Sprachmodelle, weil sie das Feedback des Lehrer…
arXiv – cs.LG