Verbesserung der automatischen Spracherkennung durch integrierte Rausch-Erkennung
Eine neue Studie zeigt, wie die automatische Spracherkennung durch die direkte Einbindung von Rausch-Erkennungskomponenten deutlich verbessert werden kann. Der Ansatz baut auf dem bekannten wav2vec2‑Framework auf und erweitert es um ein dediziertes Modul zur Rauschidentifikation, das gleichzeitig mit der Sprachtranskription arbeitet.
Durch die parallele Verarbeitung von Sprach- und Rauschsignalen kann das System nicht nur die Transkriptionsqualität erhöhen, sondern auch die Rauschklassifikation präziser gestalten. In umfangreichen Tests mit öffentlich verfügbaren Sprach- und Umgebungs‑Audio‑Datensätzen konnten die Autoren signifikante Fortschritte bei der Wortfehlerrate, der Zeichenfehlerrate und der Rausch-Erkennungsgenauigkeit nachweisen.
Die Ergebnisse verdeutlichen, dass die gemeinsame Optimierung von Transkriptions- und Rauschklassifikationszielen zu einer zuverlässigeren Spracherkennung in anspruchsvollen akustischen Umgebungen führt. Dieser Ansatz eröffnet neue Perspektiven für robuste Sprachsysteme in realen Einsatzszenarien.