ES4R: Sprachmodell für empathische Antworten mit Vorhersage von Gefühlen
In der Welt der Sprachdialoge ist Empathie weit mehr als nur das Verstehen von Wörtern. Sie erfordert auch die Wahrnehmung von Prosodie, Ton und emotionaler Intensität, um die Gefühle des Gesprächspartners wirklich zu erfassen. Das neue Framework ES4R setzt genau hier an und liefert einen innovativen Ansatz für die Erzeugung empathischer Sprachantworten.
Der Kern von ES4R liegt in der expliziten Modellierung von strukturierten affektiven Kontexten, bevor die Audiodaten überhaupt in ein Encoder-Format überführt werden. Anstatt sich auf die schwächere, implizite Lernfähigkeit von Encodern oder auf reine Emotionen-Labels zu verlassen, nutzt ES4R ein zweistufiges Aufmerksamkeitsmechanismus. Dieser erfasst sowohl die affektiven Zustände einzelner Sprecherwechsel als auch die dynamischen Emotionen im gesamten Dialog.
Die gewonnenen affektiven Repräsentationen werden anschließend mit den semantischen Informationen des Textes kombiniert. Durch eine sprachgesteuerte, cross-modale Aufmerksamkeitsstrategie entstehen Antworten, die nicht nur inhaltlich korrekt, sondern auch emotional abgestimmt sind. Für die Sprachausgabe setzt ES4R auf eine energiespezifische Strategieauswahl und eine Stilfusion, die die empathische Qualität der generierten Sprache weiter steigert.
In automatisierten Tests sowie in menschlichen Bewertungen übertrifft ES4R konsequent etablierte Baselines. Darüber hinaus bleibt das System robust, wenn es mit unterschiedlichen großen Sprachmodell-Backbones kombiniert wird. Damit bietet ES4R einen bedeutenden Fortschritt für Anwendungen, die auf echte, mitfühlende Sprachinteraktion angewiesen sind.