Neuer Backdoor-Angriff auf Transformer ohne Retraining: HPMI

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben einen völlig neuen Ansatz zur Manipulation von Transformer‑Modellen vorgestellt, der ohne erneutes Training auskommt. Der sogenannte Head‑wise Pruning and Malicious Injection (HPMI) Angriff nutzt gezielt die Schwachstellen einzelner Attention‑Heads aus, um einen versteckten Backdoor einzuschleusen.

Im Gegensatz zu bisherigen Methoden, die entweder das Modell neu trainieren oder die Architektur verändern müssen, erfordert HPMI lediglich das Entfernen des am wenigsten wichtigen Heads und das Einfügen eines vortrainierten, bösartigen Heads. Dabei wird nur ein kleiner Teil der ursprünglichen Daten benötigt und das Modell bleibt unverändert.

Die Autoren liefern eine solide theoretische Begründung dafür, dass der implantierte Backdoor schwer zu erkennen und zu entfernen ist, selbst wenn moderne Verteidigungsmechanismen eingesetzt werden. Experimentelle Tests auf mehreren Datensätzen zeigen, dass HPMI die reine Genauigkeit des Modells praktisch unverändert lässt, gleichzeitig eine Erfolgsrate von mindestens 99,55 % erzielt und vier fortschrittliche Abwehrstrategien umgeht.

Im Vergleich zu retraining‑abhängigen Angriffen bietet HPMI eine höhere Tarnung und Robustheit gegenüber unterschiedlichen Verteidigungsansätzen, während die Auswirkungen auf die reine Leistung minimal bleiben. Dieser Ansatz eröffnet neue Perspektiven für die Sicherheit von Transformer‑Modellen in sensiblen Anwendungen.

Ähnliche Artikel