Kalibrierung des Lehrermodells steigert die Leistung bei Knowledge Distillation
In der aktuellen Forschung zur Modellkompression hat sich Knowledge Distillation (KD) als äußerst wirkungsvolle Methode etabliert. Dabei überträgt ein großes Lehrermodell sein Wissen an ein kompakteres Schülermodell. Tr…