Kalibrierung des Lehrermodells steigert die Leistung bei Knowledge Distillation
In der aktuellen Forschung zur Modellkompression hat sich Knowledge Distillation (KD) als äußerst wirkungsvolle Methode etabliert. Dabei überträgt ein großes Lehrermodell sein Wissen an ein kompakteres Schülermodell. Trotz der bisherigen Erfolge bleibt die Frage offen, welche Faktoren die Effektivität von KD maßgeblich beeinflussen.