Emotionale KI-Empfehlungen: Multi-Modal-Analyse steigert Engagement um 15 %
Mit dem rasanten Anstieg von KI-generierten Inhalten in Musik, Video und Literatur wächst die Nachfrage nach Empfehlungssystemen, die nicht nur Klicks und Bewertungen berücksichtigen, sondern auch die aktuellen Emotionen und Absichten der Nutzer erfassen.
In der vorliegenden Studie wird ein Multi‑Modal‑Emotion‑und‑Intent‑Recognition‑Model (MMEI) vorgestellt, das auf einem BERT‑basierten Cross‑Modal‑Transformer mit Attention‑Fusion basiert. Das System verarbeitet gleichzeitig visuelle Signale (Gesichtsausdrücke), auditive Signale (Stimmintonation) und textuelle Kommentare über vortrainierte Encoder – ViT, Wav2Vec2 und BERT – und kombiniert die gewonnenen Merkmale in einem Attention‑Modul, um emotionale Intent‑Repräsentationen zu erzeugen.
Durch die Integration dieser Embeddings in einen kontextbasierten Matching‑Layer werden personalisierte Empfehlungen für KI‑generierte Inhalte generiert. In Experimenten mit Benchmark‑Datensätzen wie AIGC‑INT, MELD und CMU‑MOSEI sowie einem eigenen AIGC‑Interaktionsdatensatz erzielte das MMEI-Modell eine F1‑Verbesserung von 4,3 % und reduzierte die Kreuzentropie um 12,3 % im Vergleich zum besten Transformer‑Baseline. Online‑Tests auf Nutzer‑Ebene zeigten zudem, dass emotionale Empfehlungen die Verweildauer um 15,2 % steigern und die Zufriedenheit um 11,8 % erhöhen.
Diese Ergebnisse unterstreichen, dass die Berücksichtigung von Emotionen und Intentionen in Empfehlungssystemen die Nutzerbindung signifikant verbessern kann. Das vorgestellte Modell bietet damit eine vielversprechende Grundlage für die nächste Generation von personalisierten, KI‑gestützten Content‑Empfehlungen.