DeepDefense: Gradient-Feature-Alignment stärkt Netzwerke gegen Angriffe
Neurale Netzwerke sind seit langem anfällig für gezielte Störungen, sogenannte adversariale Angriffe, die winzige, aber wirkungsvolle Eingabeveränderungen nutzen, um falsche Vorhersagen zu erzwingen. Mit dem neuen Ansatz DeepDefense wird dieses Problem angegangen, indem Gradient-Feature-Alignment (GFA) über mehrere Schichten hinweg reguliert wird. Durch die Ausrichtung der Eingangsgradienten auf die internen Feature-Repräsentationen entsteht ein glatteres Verlustfeld in tangentialen Richtungen, wodurch die Empfindlichkeit gegenüber adversarialen Störungen deutlich reduziert wird.