LVLMs erkennen versteckten Schaden nicht – neue Studie zeigt Wahrnehmungslücke

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Large Vision‑Language‑Models (LVLMs) werden zunehmend eingesetzt, um multimodale Inhalte zu prüfen, die potenziell schädlich sind. In der Praxis sind solche Inhalte jedoch oft geschickt getarnt – etwa in Memes oder Bildern mit eingebetteten Texten – sodass sie die üblichen Erkennungsmechanismen umgehen.

Um diese Herausforderung zu adressieren, hat ein Forschungsteam die Benchmark‑Suite CamHarmTI entwickelt. Die Sammlung umfasst über 4.500 Beispiele aus drei Kategorien von Bild‑Text‑Posts und dient dazu, die Fähigkeit von LVLMs zu testen, versteckten Schaden zu erkennen und zu interpretieren.

Die Ergebnisse sind eindrucksvoll: Bei 100 menschlichen Testpersonen erreichte die Erkennungsrate über 95 % Genauigkeit, während die besten Modelle – darunter ChatGPT‑4o – lediglich 2,1 % erreichten. Durch gezieltes Fine‑Tuning konnte die Leistung von Qwen2.5VL‑7B um fast 56 % gesteigert werden. Eine Analyse der Modellschichten zeigte, dass die Verbesserungen vor allem in den frühen Vision‑Encoder‑Layern liegen, was zu einer besseren Integration von Bild‑ und Textinformationen führt.

Diese Studie unterstreicht die bestehenden Wahrnehmungslücken von LVLMs und liefert wertvolle Erkenntnisse für die Entwicklung von Systemen, die menschlicheren visuellen Urteilsvermögen näherkommen.

Ähnliche Artikel