Emotionale Graphen ermöglichen Zero-Shot-Spracherkennung ohne Feinabstimmung
Große Audio‑Sprachmodelle (LALMs) zeigen bereits beeindruckende Leistungen bei vielen Sprachaufgaben, doch bei der Erkennung von Emotionen im gesprochenen Text bleiben sie hinter den Erwartungen zurück. Der Grund liegt in schwachen paralinguistischen Modellen und begrenzter Fähigkeit, zwischen Audio- und Textinformationen zu verknüpfen.