On-Policy Distillation neu bewertet: Fehlerquellen erkannt, Lösungen entwickelt
On‑Policy Distillation (OPD) gilt als vielversprechende Methode für die Nachschulung großer Sprachmodelle, weil sie das Feedback des Lehrers auf roll-out‑generierte Sequenzen anstatt auf feste Lehrspuren stützt. In Aufg…