Deterministische Adversarial‑Purification: PurSAMERE steigert Robustheit
In einer neuen Studie wird PurSAMERE vorgestellt, ein deterministisches Verfahren zur Adversarial‑Purification, das die Robustheit von Klassifikatoren deutlich erhöht. Das Verfahren wandelt ein potenziell kompromittiertes Bild in ein benachbartes Sample um, das nahe an einem Modus der Datenverteilung liegt – dort sind Klassifikatoren zuverlässiger. Durch die deterministische Natur bleibt die Test‑Genauigkeit stabil und verhindert die Schwächung der effektiven Robustheit, die bei stochastischen Ansätzen auftreten kann, wenn der Angreifer die Systemrandomität kennt.
PurSAMERE nutzt ein Score‑Modell, das durch Minimierung des erwarteten Rekonstruktionsfehlers von mit Rauschen belasteten Daten trainiert wird. Dieses Modell erfasst die strukturellen Eigenschaften der Eingabedaten. Bei einem möglichen Angriffssample sucht das Verfahren im lokalen Umfeld nach einem gereinigten Sample, das den erwarteten Rekonstruktionsfehler unter Rausch‑Störung minimiert. Anschließend wird dieses Sample dem Klassifikator vorgelegt. Während der Reinigung wird die Sharpness‑Aware Minimization eingesetzt, um die gereinigten Samples in flache Regionen der Fehlerlandschaft zu führen und so die Robustheit weiter zu erhöhen.
Die Autoren zeigen theoretisch, dass bei abnehmendem Rauschpegel die Minimierung des erwarteten Rekonstruktionsfehlers das gereinigte Sample zu lokalen Maximalpunkten der gaußschen geglätteten Dichte drängt. Unter zusätzlichen lokalen Annahmen über das Score‑Modell wird die Wiederherstellung eines lokalen Maximalpunkts im Grenzfall des kleinen Rauschens bewiesen. Experimentelle Ergebnisse demonstrieren signifikante Verbesserungen der adversarialen Robustheit gegenüber aktuellen Methoden, selbst bei starken deterministischen White‑Box‑Angriffen.