GCG-Angriffe auf Diffusions-LLMs: Erste Erkenntnisse zur Robustheit
In einer neuen Studie, die auf arXiv veröffentlicht wurde, wird gezeigt, dass Greedy Coordinate Gradient (GCG)-Angriffe – bislang vor allem bei autoregressiven Modellen erfolgreich – auch bei Diffusions-basierten Sprachmodellen wirksam sind. Der Fokus liegt dabei auf LLaDA, einem Open-Source Diffusions-LLM, das speziell für die Verarbeitung von Text entwickelt wurde.
Die Forscher haben verschiedene Angriffsvarianten getestet, darunter Präfix‑Störungen und suffix‑basierte adversariale Generierung. Dabei wurden schädliche Eingabeaufforderungen aus dem AdvBench-Datensatz verwendet, um die Anfälligkeit des Modells zu prüfen. Die Ergebnisse liefern erste Einblicke in die Robustheit von Diffusions-LLMs und zeigen, dass diese Modelle trotz ihrer neuen Architektur nicht immun gegen gezielte Angriffe sind.
Die Arbeit unterstreicht die Notwendigkeit, alternative Optimierungs- und Evaluationsstrategien für adversariale Analysen in Diffusions-LLMs zu entwickeln. Damit wird ein wichtiger Schritt unternommen, um die Sicherheit und Zuverlässigkeit dieser vielversprechenden Technologie zu verbessern.