Unlearning-Defenses trügerisch: Neue Attacke reaktiviert versteckte NSFW-Wissen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Paper (2602.00175v1) legt offen, dass die bislang als wirksam beworbenen unlearning‑Befehle bei Diffusionsmodellen lediglich die Verbindung zwischen sprachlichen Symbolen und dem zugrunde liegenden Wissen schwächen, das jedoch als latente Erinnerung erhalten bleibt. Die Autoren zeigen, dass die Unterschiede im Denoising‑Prozess ein messbares Indiz dafür sind, wie viel des ursprünglichen Wissens noch vorhanden ist.

Auf dieser Erkenntnis aufbauend stellen die Forscher IVO (Initial Latent Variable Optimization) vor – ein kompakter, aber leistungsstarker Angriff, der die latenten Variablen optimiert, um die ursprüngliche, unsichere Wissensstruktur wiederherzustellen. Durch Bildinversion, adversariales Optimieren und Wiederverwendung von Angriffsmethoden gelingt es IVO, die verrauschte Verteilung unlernter Modelle mit ihren ursprünglichen, problematischen Zuständen abzugleichen.

In umfangreichen Tests mit acht gängigen Unlearning‑Techniken erzielt IVO überlegene Erfolgsraten und bewahrt dabei eine starke semantische Konsistenz. Die Ergebnisse deuten darauf hin, dass aktuelle Defensivansätze grundlegende Schwächen aufweisen und die Gefahr besteht, dass sensible Inhalte trotz angeblicher Entfernung noch immer zugänglich sind.

Der Quellcode ist unter https://anonymous.4open.science/r/IVO/ verfügbar. Achtung: Das Papier enthält potenziell anstößige Bilder, die einige Leser beleidigen könnten.

Ähnliche Artikel