Dynamischer Temperaturplaner verbessert Knowledge Distillation
In der neuesten Veröffentlichung auf arXiv (2511.13767v1) wird ein innovativer Ansatz vorgestellt, der die klassische Knowledge‑Distillation (KD) revolutioniert. Dabei nutzt ein kleiner Student‑Modell ein großes, vortrainiertes Teacher‑Modell, wobei die Temperatur ein entscheidender Hyperparameter ist, der die „Weichheit“ der Ausgangswahrscheinlichkeiten steuert.