Temperaturparameter in Knowledge Distillation beleuchtet – klare Auswahlrichtlinien

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Wissensdistillation wird ein Temperaturparameter eingesetzt, um die in den Gewichten des Lehrmodells verborgene Beziehungsmatrix für das Lernmodell sichtbar zu machen. Trotz der weiten Verbreitung bleibt die Wahl eines geeigneten Temperaturwertes jedoch ein Rätsel, das häufig durch zeitaufwändige Grid‑Search‑Methoden oder die Übernahme von Werten aus früheren Arbeiten gelöst wird.

Die neue Studie auf arXiv untersucht systematisch, wie die Temperatur eng mit anderen Trainingskomponenten wie dem Optimierer, dem Vortrainieren oder Feintunen des Lehrmodells verknüpft ist. Durch die Analyse dieser Wechselwirkungen werden typische Szenarien identifiziert, die einen signifikanten Einfluss auf die optimale Temperaturwahl haben.

Die daraus gewonnenen Erkenntnisse liefern Praktikern konkrete, leicht umsetzbare Richtlinien, um die Temperatur ohne umfangreiche Suche festzulegen. Damit kann die Effizienz des Distillation-Prozesses gesteigert und die Leistung der Schülermodelle verbessert werden.