Unlearning-Defenses trügerisch: Neue Attacke reaktiviert versteckte NSFW-Wissen
Ein neues arXiv‑Paper (2602.00175v1) legt offen, dass die bislang als wirksam beworbenen unlearning‑Befehle bei Diffusionsmodellen lediglich die Verbindung zwischen sprachlichen Symbolen und dem zugrunde liegenden Wissen schwächen, das jedoch als latente Erinnerung erhalten bleibt. Die Autoren zeigen, dass die Unterschiede im Denoising‑Prozess ein messbares Indiz dafür sind, wie viel des ursprünglichen Wissens noch vorhanden ist.