Jailbreaking von Vision‑Language‑Modellen: Angriff & Verteidigung in ITS

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv‑Repository beleuchtet die Schwachstellen großer Vision‑Language‑Modelle (LVLMs), die in intelligenten Verkehrssystemen (ITS) eingesetzt werden. Die Autoren zeigen, wie leicht diese Modelle durch gezielte Angriffe manipuliert werden können, und stellen gleichzeitig wirksame Gegenmaßnahmen vor.

Zunächst wurde ein spezielles Datenset mit schädlichen Anfragen erstellt, die sich auf den Verkehrsbereich beziehen. Die Fragen orientieren sich an OpenAI’s verbotenen Kategorien, sodass die Modelle nicht darauf antworten dürfen. Dieses Set bildet die Grundlage für die nachfolgenden Angriffstests.

Der Kern der Arbeit ist ein neuartiger Jailbreaking‑Angriff, der die Schwachstellen von LVLMs ausnutzt. Durch die Manipulation von Bildtypografie und mehrstufiges Prompting gelingt es dem Angreifer, das Modell dazu zu bringen, unangemessene Inhalte zu generieren. Diese Technik demonstriert, dass nicht nur Text, sondern auch Bilddaten als Angriffsvektor dienen können.

Als Gegenwehr schlagen die Forscher eine mehrschichtige Filterung vor, die die Antworten des Modells auf potenziell schädliche Inhalte prüft, bevor sie ausgegeben werden. Diese „Response‑Filtering“-Strategie soll verhindern, dass das LVLM unzulässige Informationen liefert.

Die Autoren führten umfangreiche Experimente mit führenden LVLMs – sowohl Open‑Source‑ als auch Closed‑Source‑Modellen – durch. Zur Bewertung der Angriffs‑ und Verteidigungsleistung nutzten sie GPT‑4, um die Toxicity‑Score der generierten Antworten zu bestimmen, und ergänzten die Analyse durch manuelle Überprüfungen.

Im Vergleich zu bestehenden Jailbreaking‑Techniken zeigt die Studie, dass Bildtypografie‑Manipulation und mehrstufiges Prompting besonders gefährlich sind. Die Ergebnisse unterstreichen die dringende Notwendigkeit, robuste Sicherheitsmechanismen in Verkehrssystemen zu implementieren, die auf LVLMs basieren.

Ähnliche Artikel