Neural Decoder: Sprachrekonstruktion aus ECoG mit Vision Transformers
Ein neues Forschungsprojekt aus dem Bereich der Brain‑Computer‑Interfaces (BCIs) hat einen bedeutenden Fortschritt erzielt: Mit Hilfe von Vision Transformers und kontrastivem Lernverfahren gelingt es, gesprochene Sprache direkt aus Oberflächen‑ECoG‑Signalen zu rekonstruieren. Diese Technik könnte Menschen mit schwerer Lähmung, die keine Kommunikationsmöglichkeiten mehr haben, wieder eine Stimme geben.
Frühere Studien konnten bereits verständliche Phoneme und Wörter aus ECoG‑ oder intrakortikalen Aufzeichnungen vorhersagen und anschließend mit Sprachmodellen zu sinnvollen Sätzen verbinden. Der aktuelle Schwerpunkt liegt jedoch darauf, die Sprachrekonstruktion in Echtzeit zu ermöglichen, indem die corticalen Signale unmittelbar in akustische Sprachsignale umgewandelt werden. Während dies bereits bei intrakortikalen Daten gelungen ist, fehlt bislang ein vergleichbares Verfahren für Oberflächen‑ECoG.
Die neue Pipeline nutzt ein Encoder‑Decoder‑Netzwerk, das Vision Transformers einbindet und kontrastives Lernen zur Verbesserung der direkten Regression einsetzt. In zwei Datensätzen wurde die Methode getestet: einmal mit klinischen Subdural‑Elektroden bei einem epileptischen Patienten und einmal mit dem vollständig implantierbaren, drahtlosen WIMAGINE‑Epidural‑System bei einem Teilnehmer eines motorischen BCI‑Trials. Damit wird erstmals gezeigt, dass Sprachsignale aus einem vollständig implantierbaren und drahtlosen System rekonstruiert werden können – ein entscheidender Schritt in Richtung langfristiger, tragbarer BCIs.
Die Ergebnisse eröffnen neue Perspektiven für die Entwicklung von Sprach‑BCIs, die nicht nur im Labor, sondern auch im Alltag eingesetzt werden können. Durch die Kombination von hochmodernen neuronalen Architekturen und kontrastivem Lernen könnte die Technologie bald Menschen ermöglichen, ihre Gedanken in klare, akustische Sprache zu übersetzen, ohne auf invasive Verfahren angewiesen zu sein.