MemKD: Effiziente Zeitreihenklassifikation durch Memory-Discrepancy KD
Deep‑Learning‑Modelle, insbesondere rekurrente neuronale Netze wie LSTM, haben die Analyse von Zeitreihen revolutioniert. Sie erkennen komplexe, sequenzielle Muster und ermöglichen Echtzeit‑Bewertungen – doch ihre hohe Rechenkomplexität und große Modellgrößen erschweren den Einsatz auf ressourcenbeschränkten Geräten wie Wearables oder Edge‑Plattformen.
Knowledge Distillation (KD) bietet hier eine Lösung: ein großes, leistungsstarkes „Lehrmodell“ überträgt sein Wissen an ein kleineres, effizienteres „Schülermodell“, sodass die Performance erhalten bleibt, die Rechenlast aber deutlich sinkt. Bisher wurden KD‑Methoden jedoch vor allem für Bildverarbeitung entwickelt und berücksichtigen die speziellen zeitlichen Abhängigkeiten und Gedächtnis‑Eigenschaften von Zeitreihenmodellen nicht ausreichend.
Die neue Methode Memory‑Discrepancy Knowledge Distillation (MemKD) adressiert dieses Problem, indem sie eine spezielle Verlustfunktion nutzt, die die Unterschiede im Gedächtnis‑Retention‑Verhalten zwischen Lehrer und Schüler über Teilsequenzen hinweg misst. Dadurch lernt das Schülermodell, das Verhalten des Lehrers präzise nachzuahmen, ohne die Komplexität zu übernehmen.
Umfangreiche Experimente zeigen, dass MemKD die führenden KD‑Ansätze deutlich übertrifft. Es reduziert die Parameterzahl und den Speicherbedarf um etwa 500‑fach, während die Klassifikationsleistung nahezu unverändert bleibt. Damit ermöglicht MemKD kompakte, hochleistungsfähige rekurrente Netze für Echtzeit‑Zeitreihenanalyse, die auf mobilen und Edge‑Geräten eingesetzt werden können.