Adversarial Angriffe: Sind sie echte Worst‑Case‑Szenarien?<br/>
In der KI‑Forschung werden Adversarial‑Angriffe häufig eingesetzt, um die Robustheit von Modellen zu prüfen. Doch ob diese gezielten Störungen tatsächlich die gleiche Gefahr darstellen wie zufällige Rausch‑Störungen bleibt umstritten.
Eine neue Studie auf arXiv präsentiert ein probabilistisches Messinstrument, das die „noisy risk“ – also das Risiko bei verrauschten Eingaben – quantifiziert. Das Verfahren nutzt einen Konzentrationsfaktor κ, der zwischen isotropem (gleichverteiltem) Rauschen und der stark gerichteten Adversarial‑Störung interpoliert.
Mit diesem Rahmenwerk wird untersucht, inwiefern Adversarial‑Perturbationen als Schätzer für das Risiko bei zufälligem Rauschen dienen können. Die Autoren stellen sogar eine neue Angriffsstrategie vor, die gezielt in Bereichen arbeitet, die statistisch näher an einheitlichem Rauschen liegen.
Durch umfangreiche Experimente auf ImageNet und CIFAR‑10 werden gängige Angriffe systematisch verglichen. Die Ergebnisse zeigen klar, wann ein erfolgreicher Adversarial‑Angriff tatsächlich das Risiko bei zufälligem Rauschen widerspiegelt und wann er lediglich ein atypisches Worst‑Case‑Ereignis darstellt. Diese Erkenntnisse liefern wertvolle Hinweise für die sichere Bewertung von KI‑Systemen.