KidSpeak: KI-Modell revolutioniert Spracherkennung bei Kindern
In einer Zeit, in der KI‑gestützte Lernplattformen immer mehr Einzug in Schulen halten, bleibt die Spracherkennung bei Kindern ein großes Problem. Bestehende Modelle greifen meist auf Datensätze zurück, die für klare, erwachsene Sprache optimiert sind – ein Ansatz, der bei jungen Sprechern mit unterschiedlichen Entwicklungsständen und Sprachstörungen versagt.
Mit dem neuen KidSpeak-Modell, einem mehrzweckfähigen Foundation‑Model, wird das Feld nun grundlegend verändert. Durch einen zweistufigen Trainingsprozess, der phonologische Erkenntnisse direkt in den Sprachencoder einbettet, erreicht KidSpeak eine durchschnittliche Genauigkeit von 87 % über vier verschiedene Aufgaben. Damit liefert es sowohl generative als auch diskriminative Leistungen, die speziell auf die Nuancen kindlicher Sprache zugeschnitten sind.
Ein weiteres Highlight ist der Flexible and Automatic Speech Aligner (FASA), ein automatischer Ausrichtungsmechanismus, der die Qualität von Kinder‑Sprachdaten erheblich steigert. Im Vergleich zu menschlichen Annotationsverfahren verbessert FASA die Ausrichtung von Sprachnachrichten im CHILDES‑Datensatz um das 13,6‑fache. Damit schafft die Kombination aus KidSpeak und FASA die ersten umfassenden Werkzeuge, die sowohl die Erkennung als auch die Analyse kindlicher Sprache zuverlässig unterstützen.