Unlearnable Examples schlagen zurück: Pretraining macht sie nutzlos

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Unlearnable Examples (UEs) sind ein Schutzmechanismus, der unsichtbare Störungen in Daten einfügt, um Modelle dazu zu bringen, falsche Zusammenhänge zu lernen. In einer neuen Studie wurde jedoch eine entscheidende Schwachstelle entdeckt: Wenn ein Modell mit vortrainierten Gewichten startet, nutzen die vorhandenen semantischen Darstellungen die Priors, um die von UEs geschaffenen Kurzschlüsse zu umgehen und echte Merkmale zu erfassen. Dadurch verliert die Unlearnability der Daten ihre Wirkung.

Um diesem Problem entgegenzuwirken, stellt die Arbeit die Methode BAIT (Binding Artificial perturbations to Incorrect Targets) vor. Dabei wird ein bi‑level Optimierungsverfahren eingesetzt: Auf der inneren Ebene werden die gestörten Proben mit ihren wahren Labels verknüpft, während die äußere Ebene diese Zuordnung aktiv stört, indem sie die Störungen mit gezielt falschen Zielen verbindet. Dieses Vorgehen überlagert die semantische Führung der Priors, zwingt das Modell auf die injizierten Störungen zu setzen und verhindert die Gewinnung echter Semantik. Umfangreiche Experimente mit Standard-Benchmarks und verschiedenen vortrainierten Architekturen zeigen, dass BAIT die Einflüsse von Pretraining wirksam abschwächt und die Daten weiterhin unlernbar hält.

Ähnliche Artikel