Audio-Modelle mit stärkerem Gehirn-Alignment liefern bessere Hörleistung

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In einer aktuellen Studie wurde gezeigt, dass die Leistungssteigerung von künstlichen neuronalen Netzwerken (ANNs) im Audiobereich gleichzeitig zu einer stärkeren Übereinstimmung ihrer internen Repräsentationen mit Gehirnsignalen führt. Die Forscher untersuchten 36 verschiedene Audio‑Modelle und verglichen deren Aktivitätsmuster mit fMRI‑Daten aus zwei unabhängigen Datensätzen.

Durch voxel‑weise und komponenten‑weise Regressionsanalysen sowie Representation‑Similarity‑Analysis (RSA) konnten die Autoren die Modell‑Gehirn‑Alignment‑Scores bestimmen. Dabei stellten sie fest, dass moderne, selbstüberwachte Audio‑Modelle, die in einer Vielzahl von Höraufgaben hervorragende Ergebnisse erzielen, die Aktivität des auditorischen Cortex deutlich besser vorhersagen als ältere, spezialisierte Modelle.

Ein besonders starkes Ergebnis war die Korrelation von mehr als 0,7 zwischen der Gesamtleistung eines Modells in sechs Aufgaben des HEAREval‑Benchmarks – Musik, Sprache und Umgebungsgeräusche – und seiner Übereinstimmung mit Gehirnsignalen. Diese hohe Korrelation unterstreicht, dass leistungsstarke Modelle gleichzeitig „gehirnähnlicher“ sind.

Die Untersuchung des Pretrainingsprozesses des EnCodecMAE zeigte, dass die Ähnlichkeit zu Gehirnrepräsentationen bereits früh im Lernverlauf zunimmt, obwohl das Modell nicht explizit dafür optimiert wurde. Dies deutet darauf hin, dass das Erlernen, fehlende Audiodaten zu rekonstruieren, ein natürlicher Weg ist, um Gehirn‑ähnliche Strukturen zu entwickeln.

Die Ergebnisse legen nahe, dass die Entwicklung von Audio‑KI, die sowohl leistungsfähig als auch biologisch plausibel ist, nicht nur möglich, sondern bereits im Gange ist. Dies eröffnet neue Perspektiven für die Gestaltung von Systemen, die menschliche Hörverarbeitung noch genauer nachahmen können.

Ähnliche Artikel