Interpretierbare Wissensübertragung in Zeitreihen: Temporal Saliency Distillation
Die Kompression von Modellen durch Knowledge Distillation funktioniert, indem ein großes Lehrmodell (Teacher) sein Wissen an ein kleineres Lernmodell (Student) überträgt. In der Zeitreihenanalyse basieren die meisten bestehenden Verfahren jedoch auf Logit‑ und Feature‑Alignment‑Techniken, die ursprünglich für die Bildverarbeitung entwickelt wurden. Diese Ansätze berücksichtigen die zeitliche Struktur der Daten nicht ausreichend und weisen zwei wesentliche Schwächen auf.
Erstens bleibt unklar, wie das übertragene Wissen den Lernprozess des Studenten unterstützt, weil Logits und Features schwer interpretierbar sind. Zweitens beschränkt sich die Übertragung meist auf die reine Replikation der Vorhersagegenauigkeit des Lehrers. Dadurch entstehen bei den Studenten oft Vorhersageverteilungen, die sich deutlich von denen des Lehrers unterscheiden, was eine sichere Substitution erschwert.
Um diese Probleme zu lösen, schlägt die Arbeit die Temporal Saliency Distillation vor. Dabei wird das Logit‑Transferverfahren erweitert, sodass nicht nur die korrekte Vorhersage, sondern auch die zugrunde liegende Begründung des Lehrers vermittelt wird. Die sogenannte temporale Salienz erfasst die Bedeutung jedes Zeitschritts für die Vorhersage des Lehrers und dient als zusätzliche, interpretierbare Wissensquelle.
Durch das Training des Studenten mit dieser Methode wird er dazu angeregt, Vorhersagen auf Basis derselben Eingabefeatures zu treffen wie der Lehrer. Die Technik benötigt keine zusätzlichen Parameter oder architekturspezifischen Annahmen und hat sich in Experimenten als wirksam erwiesen, um die Qualität der Wissensübertragung in Zeitreihenmodellen zu verbessern.