Cross-Modal-Ansatz erkennt Gerüchte mit kontrastivem Lernen von Text und Bild
Forscher haben ein neues Verfahren zur Erkennung von Gerüchten entwickelt, das Text- und Bildinhalte gleichzeitig nutzt. Durch die Kombination von kontrastivem Lernen und einer detaillierten Analyse von Bildregionen wird das bisher vernachlässigte Bildmaterial in die Analyse einbezogen und damit entscheidende Hinweise auf die Echtheit von Nachrichten gewonnen.
Im Kern steht der SCLIP‑Encoder, der sowohl Texte als auch Bild‑Patches in ein einheitliches semantisches Vektor‑Format überführt. Die Relevanz zwischen Text und Bild wird anschließend über die Punktprodukt‑Ähnlichkeit gemessen, wodurch ein klarer, quantifizierbarer Zusammenhang entsteht.
Ein weiterer Baustein ist das Cross‑Modal Multi‑Scale Alignment‑Modul. Hier werden Bildregionen, die am stärksten mit dem Text in Zusammenhang stehen, mithilfe von Mutual‑Information‑Maximierung und dem Information‑Bottleneck‑Prinzip identifiziert. Durch eine Top‑K‑Auswahl aus einer Kreuz‑Modalitäts‑Relevanzmatrix werden die wichtigsten Bildbereiche herausgefiltert.
Schließlich integriert ein skalierungsbewusstes Fusion‑Netz die hochrelevanten Bildfeatures mit den globalen Textfeatures. Dabei werden den Bildregionen adaptive Gewichte zugewiesen, die sowohl die semantische Bedeutung als auch die Kreuz‑Modalitäts‑Relevanz berücksichtigen. Das Ergebnis ist eine robuste, multimodale Darstellung, die Gerüchte deutlich besser erkennt.
Die Methode wurde auf zwei realen Datensätzen getestet und zeigte im Vergleich zu bestehenden Ansätzen eine signifikante Leistungssteigerung. Damit liefert das neue Verfahren einen wichtigen Fortschritt im Bereich der automatisierten Gerüchteerkennung.