Emotionale Graphen ermöglichen Zero-Shot-Spracherkennung ohne Feinabstimmung
Große Audio‑Sprachmodelle (LALMs) zeigen bereits beeindruckende Leistungen bei vielen Sprachaufgaben, doch bei der Erkennung von Emotionen im gesprochenen Text bleiben sie hinter den Erwartungen zurück. Der Grund liegt…