GCG-Angriffe auf Diffusions-LLMs: Erste Erkenntnisse zur Robustheit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie, die auf arXiv veröffentlicht wurde, wird gezeigt, dass Greedy Coordinate Gradient (GCG)-Angriffe – bislang vor allem bei autoregressiven Modellen erfolgreich – auch bei Diffusions-basierten Sprachmodellen wirksam sind. Der Fokus liegt dabei auf LLaDA, einem Open-Source Diffusions-LLM, das speziell für die Verarbeitung von Text entwickelt wurde.

Die Forscher haben verschiedene Angriffsvarianten getestet, darunter Präfix‑Störungen und suffix‑basierte adversariale Generierung. Dabei wurden schädliche Eingabeaufforderungen aus dem AdvBench-Datensatz verwendet, um die Anfälligkeit des Modells zu prüfen. Die Ergebnisse liefern erste Einblicke in die Robustheit von Diffusions-LLMs und zeigen, dass diese Modelle trotz ihrer neuen Architektur nicht immun gegen gezielte Angriffe sind.

Die Arbeit unterstreicht die Notwendigkeit, alternative Optimierungs- und Evaluationsstrategien für adversariale Analysen in Diffusions-LLMs zu entwickeln. Damit wird ein wichtiger Schritt unternommen, um die Sicherheit und Zuverlässigkeit dieser vielversprechenden Technologie zu verbessern.

Ähnliche Artikel