Multi‑Modal‑Empathie‑Vorhersage kombiniert Video, Audio, Text & Supervisor‑Dokumente
Ein neues Forschungsprojekt präsentiert ein innovatives Modell zur Vorhersage von Empathie, das mehrere Modalitäten – Video, Audio und Text – gleichzeitig nutzt. Durch die Kombination vortrainierter Netzwerke und einer Cross‑Modal‑Fusion entsteht ein reichhaltiges Feature‑Set, das die Empathie‑Labels präziser bestimmt als bisherige, ein‑Modale Ansätze.