DeepDefense: Gradient-Feature-Alignment stärkt Netzwerke gegen Angriffe
Neurale Netzwerke sind seit langem anfällig für gezielte Störungen, sogenannte adversariale Angriffe, die winzige, aber wirkungsvolle Eingabeveränderungen nutzen, um falsche Vorhersagen zu erzwingen. Mit dem neuen Ansatz DeepDefense wird dieses Problem angegangen, indem Gradient-Feature-Alignment (GFA) über mehrere Schichten hinweg reguliert wird. Durch die Ausrichtung der Eingangsgradienten auf die internen Feature-Repräsentationen entsteht ein glatteres Verlustfeld in tangentialen Richtungen, wodurch die Empfindlichkeit gegenüber adversarialen Störungen deutlich reduziert wird.
Die Autoren erklären, dass adversariale Störungen in radial- und tangentiale Komponenten zerlegt werden können und zeigen, dass die Ausrichtung die Verlustvariation in den tangentialen Richtungen unterdrückt – dort wirken die meisten Angriffe am stärksten. In Experimenten auf dem CIFAR‑10‑Datensatz übertrifft DeepDefense herkömmliches adversariales Training um bis zu 15,2 % bei APGD‑Angriffen und um 24,7 % bei FGSM‑Angriffen. Bei optimierungsbasierten Angriffen wie DeepFool und EADEN erfordert DeepDefense 20 bis 30 Mal höhere Störgrößen, um eine Fehlklassifizierung zu provozieren, was auf stärkere Entscheidungsgrenzen und ein flacheres Verlustfeld hinweist.
Der Ansatz ist architekturunabhängig, einfach zu implementieren und liefert signifikante Verbesserungen der Robustheit. DeepDefense eröffnet damit einen vielversprechenden Weg, die Widerstandsfähigkeit von Deep‑Learning‑Modellen gegen adversariale Bedrohungen nachhaltig zu erhöhen.