S5-Transformer dominiert EEG-Decodierung: 98,7 % Genauigkeit bei 64 s Kontext
In einer neuen Studie wurde untersucht, wie die Architektur eines Modells und die Länge des zeitlichen Kontextes die Leistung bei der Dekodierung natürlicher EEG-Daten beeinflussen. Das Team nutzte das HBN-Movie‑Watching‑Dataset und verglich fünf unterschiedliche Modelle – CNN, LSTM, einen stabilisierten Transformer namens EEGXF, sowie die S4- und S5-Architekturen – bei einer vierklassigen Klassifikationsaufgabe mit Segmentlängen von 8 bis 128 Sekunden.
Die Ergebnisse zeigen, dass die Genauigkeit mit zunehmender Kontextlänge deutlich steigt. Bei einer Segmentlänge von 64 s erreichte das S5-Modell beeindruckende 98,7 % ± 0,6, während das CNN bei 98,3 % ± 0,3 lag. Gleichzeitig benötigte S5 nur etwa ein Zwanzigstel der Parameter, die ein CNN benötigt, was die Effizienz des Modells deutlich erhöht.
Um die Robustheit in realen Szenarien zu prüfen, wurden Zero‑Shot-Tests gegen Frequenzverschiebungen, Out‑of‑Distribution‑Aufgaben und Leave‑One‑Subject‑Out‑Generalisation durchgeführt. S5 erzielte dabei die höchste Genauigkeit bei neuen Subjekten, zeigte jedoch übermäßig selbstsichere Fehler bei OOD‑Aufgaben. Der EEGXF-Transformer hingegen agierte konservativer und blieb stabil bei Frequenzänderungen, obwohl seine Kalibrierung im‑Distribution etwas schwächer war.
Die Studie verdeutlicht einen klaren Kompromiss zwischen Effizienz und Robustheit: Für parameter‑effiziente Spitzenleistung empfiehlt sich S5, während EEGXF die bessere Wahl ist, wenn Zuverlässigkeit und konservative Unsicherheitsabschätzungen entscheidend sind.