Backdoor-Erkennung: Sensitivität durch Klassensubraum‑Orthogonalisation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der KI-Sicherheit sind Backdoor‑Angriffe ein ernstes Problem. Viele aktuelle Methoden zur Erkennung solcher Hintertüren verlassen sich darauf, dass das Ziel‑Klasse‑Modell extrem hohe Ausreißer‑Statistiken aufweist – ein Hinweis, dass ein Angreifer einen Trigger eingebaut hat. Doch diese Technik stößt an Grenzen: Wenn andere Klassen von Natur aus leicht zu unterscheiden sind, können sie ebenfalls hohe Statistiken erzeugen, und wenn die Hintertür subtil ist, überlagern sich die eigentlichen Klasseneigenschaften mit dem Trigger.

Die Autoren stellen fest, dass die Erkennungsstatistik einer Ziel‑Klasse sowohl aus dem Trigger als auch aus den intrinsischen Merkmalen besteht, während Nicht‑Ziel‑Klassen nur die intrinsischen Merkmale tragen. Um die Sensitivität zu erhöhen, schlagen sie vor, die intrinsischen Merkmale zu unterdrücken und gleichzeitig die Erkennungsstatistik für jede Klasse zu optimieren. Dadurch sinkt die Statistik bei Nicht‑Ziel‑Klassen drastisch, während die Ziel‑Klasse durch den starken Trigger‑Beitrag weiterhin auffällt.

Das Ergebnis ist ein plug‑and‑play Verfahren namens Class Subspace Orthogonalization (CSO). Durch ein konstrahiertes Optimierungsproblem, das nur wenige saubere Beispiele einer Klasse nutzt, wird die Erkennungsstatistik orthogonal zu den intrinsischen Merkmalen der Klasse gemacht. In Tests gegen anspruchsvolle gemischte‑Label‑ und adaptive Angriffe zeigt CSO eine deutlich verbesserte Erkennungsleistung, ohne die Modellleistung zu beeinträchtigen.

Ähnliche Artikel