Interpretierbare Wissensübertragung in Zeitreihen: Temporal Saliency Distillation
Die Kompression von Modellen durch Knowledge Distillation funktioniert, indem ein großes Lehrmodell (Teacher) sein Wissen an ein kleineres Lernmodell (Student) überträgt. In der Zeitreihenanalyse basieren die meisten bestehenden Verfahren jedoch auf Logit‑ und Feature‑Alignment‑Techniken, die ursprünglich für die Bildverarbeitung entwickelt wurden. Diese Ansätze berücksichtigen die zeitliche Struktur der Daten nicht ausreichend und weisen zwei wesentliche Schwächen auf.