Multi‑Modal‑Empathie‑Vorhersage kombiniert Video, Audio, Text & Supervisor‑Dokumente

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt präsentiert ein innovatives Modell zur Vorhersage von Empathie, das mehrere Modalitäten – Video, Audio und Text – gleichzeitig nutzt. Durch die Kombination vortrainierter Netzwerke und einer Cross‑Modal‑Fusion entsteht ein reichhaltiges Feature‑Set, das die Empathie‑Labels präziser bestimmt als bisherige, ein‑Modale Ansätze.

Um die Text‑Features noch gezielter zu extrahieren, wird während des Trainings auf privilegierte Supervisor‑Dokumente zurückgegriffen. Diese Texte, die von Fachleuten zu Beratungsthemen und empathischen Ausdruck verfasst wurden, werden mittels Latent Dirichlet Allocation analysiert, um thematische Distributions‑Constraints zu erzeugen. Diese Constraints steuern die Text‑Features, sind jedoch ausschließlich im Trainings‑, nicht im Vorhersage‑Modus verfügbar.

Auf den gängigen Multi‑Modal‑ und Dialog‑Empathie‑Datensätzen zeigen die Experimente, dass das neue Verfahren die bisherigen Methoden deutlich übertrifft. Die Kombination aus multimodaler Verarbeitung und privilegierter Dokumenten‑Unterstützung liefert damit einen wichtigen Fortschritt in der Empathie‑Prädiktion.

Ähnliche Artikel