MemeLens: Mehrsprachiges, multitaskfähiges VLM für Memes – neue Forschung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Auf der Plattform arXiv wurde ein neues Modell namens MemeLens vorgestellt, das die Analyse von Memes in über 20 Sprachen und für 20 verschiedene Aufgabenbereiche revolutionieren soll. Memes gelten als besonders einflussreich in der Online-Kommunikation, weil ihre Bedeutung aus der Kombination von Text, Bild und kulturellem Kontext entsteht.

Derzeit sind Studien zu Memes stark fragmentiert – sie konzentrieren sich jeweils auf ein Thema wie Hass, Missogynie, Propaganda, Sentiment oder Humor und nutzen unterschiedliche Sprachen. Diese Fragmentierung erschwert die Übertragbarkeit von Erkenntnissen zwischen den Bereichen. MemeLens löst dieses Problem, indem es 38 öffentliche Meme-Datensätze zusammenführt, die jeweiligen Labels in eine einheitliche Taxonomie von 20 Aufgaben überführt und das Modell mit multimodaler, erklärungsorientierter Trainingsstrategie versieht.

Die Autoren führten eine umfassende experimentelle Analyse durch, die verschiedene Modellarchitekturen, Aufgabenkategorien und Datensätze abdeckte. Die Ergebnisse zeigen, dass ein robustes Verständnis von Memes nur durch multimodales Training erreicht werden kann, dass die Leistung je nach semantischer Kategorie stark variiert und dass Modelle, die ausschließlich auf einzelnen Datensätzen feinabgestimmt werden, leicht überoptimiert sind. Ein einheitliches Training über alle Aufgaben hinweg liefert dagegen stabilere Ergebnisse.

Alle experimentellen Ressourcen, Datensätze und das Modell selbst werden der Forschungsgemeinschaft zur Verfügung gestellt, sodass weitere Untersuchungen und Anwendungen in der Meme-Analyse möglich sind. MemeLens stellt damit einen wichtigen Schritt dar, um die komplexe Welt der Memes systematisch und vergleichbar zu erforschen.

Ähnliche Artikel