EEG-Modelle trainieren: Multi-Teacher Distillation nutzt Vision und Zeitreihen

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der Gehirn‑Signalverarbeitung hat sich das Pre‑Training von EEG‑Foundation‑Modellen bislang stark auf selbstüberwachtes Masked‑Reconstruction verlassen. Dieses Verfahren, das stark von erfolgreichen Modellen in Bild- und Textverarbeitung inspiriert ist, stößt bei EEG‑Daten an Grenzen: die Datensätze sind teuer zu beschaffen und weisen ein hohes Rausch‑Signal‑Verhältnis auf. Dadurch wird das Skalieren der Modelle erschwert und die Erfassung neuronaler Semantik bleibt schwierig.

Die Autoren stellen die Frage, ob man die etablierten Foundation‑Modelle aus gut repräsentierten Modalitäten – etwa Vision‑ und Zeitreihen‑Modellen – nutzen kann, um EEG‑Modelle effizienter zu trainieren. Ihre Untersuchungen zeigen, dass diese Modelle überraschend gut auf den EEG‑Bereich übertragbar sind.

Auf dieser Basis entwickeln sie das Multi‑Teacher Distillation Pretraining (MTDP). Der Ansatz besteht aus zwei Stufen: Zunächst wird ein lernbares Gating‑Netzwerk eingesetzt, das die Repräsentationen mehrerer Teacher‑Modelle (z. B. DINOv3 und Chronos) zusammenführt. Dabei wird ein maskiertes latentes Denoising‑Ziel verwendet, um die Qualität der kombinierten Features zu maximieren. In der zweiten Stufe wird diese fusionierte Repräsentation in ein EEG‑Foundation‑Modell distilliert.

Durch umfangreiche Tests an neun Downstream‑Aufgaben und zwölf Datensätzen konnte das MTDP‑Modell die Leistung selbstüberwachter Gegenstücke deutlich übertreffen – und das mit nur 25 % der üblichen Pre‑Training‑Datenmenge. Diese Ergebnisse deuten darauf hin, dass Multi‑Teacher‑Distillation ein vielversprechender Weg ist, um EEG‑Modelle schneller und ressourcenschonender zu entwickeln.

Ähnliche Artikel