Quantisierung macht Backdoor-Abwehr – Modelle verlieren Schutz bei INT8

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Neutrale Netzwerke, die heimlich bösartige Eingaben erkennen, bleiben bei hoher Genauigkeit ein ernstes Risiko für produktive KI-Systeme. Doch in der Praxis werden Modelle selten in voller Präzision eingesetzt – sie werden nach dem Training auf INT8 oder sogar INT4 reduziert, um Speicher und Latenz zu sparen. In einer neuen Studie wurde untersucht, wie sich diese Standard-Quantisierung auf fünf gängige Backdoor-Abwehrmethoden auswirkt.

Die Forscher testeten die Defenses in drei Präzisionsstufen (FP32, INT8 dynamisch, INT4 simuliert) auf zwei klassischen Bildklassifikationsbenchmarks mit einer BadNet-Attacke. Die Ergebnisse sind alarmierend: Bei INT8 fällt die Erkennungsrate aller Defenses auf 0 %, während die Angriffsrate über 99 % bleibt. Bei INT4 zeigt sich ein starkes Datensatz‑Abhängigkeitsverhalten – Neural Cleanse funktioniert noch bei GTSRB, scheitert aber bei CIFAR‑10, obwohl die Backdoors weiterhin mit über 90 % Erfolg bestehen.

Diese Befunde verdeutlichen, dass die meisten Backdoor-Abwehrtests auf FP32-Modellen durchgeführt werden, während die Modelle in der Praxis quantisiert laufen. Für die Entwicklung robuster Verteidigungen muss daher die Quantisierungs‑Robustheit künftig als entscheidender Prüfparameter berücksichtigt werden.

Ähnliche Artikel