E3RG: Multimodales System erzeugt empathische Antworten ohne Training

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues multimodales System namens E3RG setzt neue Maßstäbe für die empathische Interaktion zwischen Mensch und Computer. Durch die Kombination von großen Sprachmodellen mit fortschrittlichen Modellen für Sprache und Video kann E3RG Emotionen aus Text, Bild und Ton erkennen, in einer empathischen Erinnerung ablegen und anschließend natürliche, emotional reichhaltige Antworten generieren – und das ohne zusätzliche Trainingsschritte.

Die Architektur von E3RG teilt die Aufgabe in drei klar definierte Phasen: Erstens das multimodale Verständnis von Empathie, dann die Abrufung relevanter empathischer Erinnerungen und schließlich die eigentliche Antwortgenerierung. Diese Aufteilung ermöglicht es dem System, sowohl die Inhalte als auch die Identität des Gesprächspartners konsistent zu berücksichtigen.

In Experimenten, die sowohl Zero‑Shot- als auch Few‑Shot-Szenarien abdecken, hat E3RG die Konkurrenz deutlich übertroffen und den ersten Platz beim Avatar‑basierten Multimodal Empathy Challenge der ACM MM 2025 gewonnen. Die Ergebnisse zeigen, dass das System nicht nur in der Lage ist, passende emotionale Reaktionen zu liefern, sondern diese auch in einer Weise zu formulieren, die die Identität des Nutzers respektiert.

Der Quellcode von E3RG ist öffentlich zugänglich und kann unter https://github.com/RH-Lin/E3RG eingesehen werden. Damit bietet die Forschung eine wertvolle Ressource für Entwickler, die emotionale Intelligenz in ihre Anwendungen integrieren wollen.

Ähnliche Artikel