Dynamischer Temperaturplaner verbessert Knowledge Distillation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der neuesten Veröffentlichung auf arXiv (2511.13767v1) wird ein innovativer Ansatz vorgestellt, der die klassische Knowledge‑Distillation (KD) revolutioniert. Dabei nutzt ein kleiner Student‑Modell ein großes, vortrainiertes Teacher‑Modell, wobei die Temperatur ein entscheidender Hyperparameter ist, der die „Weichheit“ der Ausgangs­wahrscheinlichkeiten steuert.

Traditionell wird die Temperatur während des gesamten Trainings konstant gehalten – ein Ansatz, der sich als suboptimal erwiesen hat. Zusätzlich führen architektonische Unterschiede zwischen Teacher und Student häufig zu unpassenden Logit‑Größen. Die Autoren zeigen, dass Studenten von weicheren Wahrscheinlichkeiten in den frühen Trainingsphasen profitieren, später jedoch schärfere Wahrscheinlichkeiten benötigen.

Um diesem Bedarf gerecht zu werden, präsentiert das Team den Dynamic Temperature Scheduler (DTS). Dieser Scheduler passt die Temperatur dynamisch an, basierend auf der Kreuzentropie‑Differenz zwischen Teacher und Student. Bislang gibt es keine Methode, die die Temperatur so gezielt an die Divergenz der beiden Verteilungen anpasst.

Der DTS lässt sich nahtlos in bestehende KD‑Frameworks integrieren und wurde auf einer Vielzahl von Aufgaben getestet – von Bildklassifikationen (CIFAR‑100, Tiny‑ImageNet) bis hin zu NLP‑Aufgaben (GLUE, Dolly, SelfIns, UnNI, S‑NI). In allen Fällen übertraf der dynamische Ansatz die statischen Temperatur‑Baselines und erzielte konsistente Leistungsverbesserungen.

Der Quellcode ist öffentlich verfügbar unter https://github.com/Sibgat-Ul/DTS, sodass Forscher und Entwickler sofort von den Vorteilen profitieren können.

Ähnliche Artikel