Neuer Backdoor-Ansatz: Mit minimalem Gift die Entscheidungsgrenzen ausnutzen
Neuste Forschung aus dem arXiv-Repository präsentiert einen theoretisch fundierten Ansatz, um Deep‑Neural‑Networks (DNNs) mit extrem geringer Giftmenge zu kompromittieren. Während bisherige Backdoor‑Angriffe stark auf heuristische, brute‑force‑Methoden setzen, fehlt ihnen eine solide theoretische Basis, die die Mechanismen hinter ihrer Wirksamkeit erklärt.
Die Autoren zeigen, dass bei sparsamen Entscheidungsgrenzen selbst wenige, gezielt relabelte Stichproben enorme Fehlklassifikationen auslösen können. Durch die Ableitung einer klaren, mehrdeutigen Grenzregion wird demonstriert, wie minimale Änderungen an wenigen Datenpunkten zu signifikanten Parameterverschiebungen führen, ohne die Genauigkeit bei sauberen Daten zu beeinträchtigen.
Auf Basis dieser Erkenntnisse wird „Eminence“ vorgestellt – ein erklärbares, robustes Black‑Box‑Backdoor‑Framework mit formalen theoretischen Garantien. Das System optimiert einen universellen, visuell subtilen Trigger, der gezielt die verwundbaren Grenzbereiche ausnutzt und damit bei einer Giftrate von unter 0,1 % – im Vergleich zu herkömmlichen Methoden, die meist über 1 % benötigen – effektive Fehlklassifikationen erzielt.
Umfangreiche Experimente bestätigen die theoretischen Vorhersagen und zeigen eine exponentielle Beziehung zwischen Margin‑Poisoning und der Manipulation der adversarialen Grenzen. Der Ansatz liefert damit einen bedeutenden Fortschritt in der Entwicklung von Backdoor‑Angriffen, die gleichzeitig schwerer zu erkennen und effizienter sind.