EEG-DLite: Datenverdichtung für effizientes Training großer EEG-Modelle
Ein neues Verfahren namens EEG‑DLite verspricht, das Training großer EEG‑Fundamentmodelle deutlich ressourcenschonender zu gestalten. Durch gezielte Entfernung von Rauschen und redundanten Proben aus riesigen EEG‑Datensätzen wird die Datenmenge drastisch reduziert, ohne die Vielfalt zu verlieren.
EEG‑DLite nutzt einen selbstüberwachten Autoencoder, um EEG‑Segmente in kompakte latente Repräsentationen zu kodieren. Auf Basis dieser Darstellungen werden Ausreißer identifiziert und redundante Beispiele eliminiert. Das Ergebnis ist ein kleiner, aber hochinformativem Subset, das die wesentlichen Merkmale der ursprünglichen Daten beibehält.
In umfangreichen Experimenten zeigte sich, dass das Training auf lediglich 5 % eines 2 500‑Stunden‑Datensatzes – der mit EEG‑DLite aufbereitet wurde – Leistungen liefert, die dem oder sogar dem Training auf dem vollständigen Datensatz entsprechen. Dies gilt für mehrere nachgelagerte Aufgaben, die häufig bei EEG‑Modellen eingesetzt werden.
Dieses Vorgehen stellt die erste systematische Untersuchung der Datenverdichtung im Kontext von EEG‑Fundamentmodellen dar und eröffnet einen skalierbaren, praktischen Weg zu effizienteren physiologischen Modellen.
Der Quellcode ist frei verfügbar unter https://github.com/t170815518/EEG-DLite.