Neues ASR-Modell nutzt Artikulationsdaten für bessere Erkennung
Anzeige
In einer aktuellen Studie wird die Rolle von Artikulationsmerkmalen in der automatischen Spracherkennung neu beleuchtet. Durch die Kombination von Sprachumkehrung als Hilfsaufgabe und die Einbindung der vorhergesagten Artikulationsdaten in ein Cross‑Attention‑Modul erzielt das Modell signifikante Verbesserungen gegenüber etablierten Transformer‑Baselines. Besonders bei begrenzten Datenmengen zeigen sich deutliche Fortschritte, was die Bedeutung moderner Architekturen für die Nutzung von Artikulationsinformationen unterstreicht.
Ähnliche Artikel
arXiv – cs.AI
•
Neuralnetz entschlüsselt Gehirnimpulse in Sprache – EEG-basierte Spracherkennung
arXiv – cs.LG
•
PGF-Net: Gated-Fusion-Framework für effiziente multimodale Sentimentanalyse
arXiv – cs.LG
•
Conditional Neural ODE zur Vorhersage der Langzeitprogression bei Parkinson
MarkTechPost
•
Agenten-Voice‑KI-Assistenten: Verstehen, Überlegen, Planen, Echtzeit‑Antworten
arXiv – cs.LG
•
Starke Lotterie-Ticket-Hypothese gilt auch für Multi-Head-Attention in Transformers
arXiv – cs.AI
•
Tokenisierung von Assemblersprache: entscheidend für LLMs & Transformer