Leichtgewichtiges, datenschutzfreundliches MER-Modell nutzt Dirichlet-Unsicherheit

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues, schlankes Multimodal-Emotion-Recognition-System (MER) wurde vorgestellt, das speziell für den Einsatz auf Edge-Geräten konzipiert ist. Das System kombiniert drei Modalitäten – Sprache, Text und Gesichtsbilder – und kann dank seiner modularen Architektur problemlos um weitere Modalitäten erweitert werden.

Jede Modalität wird von einem eigenen, inference‑effizienten Backbone verarbeitet: Emotion2Vec für die Sprachverarbeitung, ein ResNet‑basiertes Modell für Gesichts‑Expressionsanalyse und DistilRoBERTa für die Textanalyse. Durch die Anwendung der Dempster‑Shafer‑Theorie in Verbindung mit Dirichlet‑Evidence wird die Unsicherheit über die Modalitäten hinweg ohne zusätzliche Trainingsschritte oder komplexe Verteilungsabschätzungen integriert.

Die Validierung auf fünf etablierten Benchmark-Datensätzen – eNTERFACE05, MEAD, MELD, RAVDESS und CREMA‑D – zeigt, dass das Verfahren eine konkurrenzfähige Genauigkeit erreicht, dabei aber ressourcenschonend bleibt und robust gegenüber unklaren oder fehlenden Eingaben ist. Das Ergebnis ist ein skalierbares, realwelt‑fähiges Framework, das in Bereichen wie Gesundheitswesen, Mensch‑Computer‑Interaktion und anderen emotionsbasierten Anwendungen eingesetzt werden kann.

Ähnliche Artikel