Unlearning-Defenses trügerisch: Neue Attacke reaktiviert versteckte NSFW-Wissen
Ein neues arXiv‑Paper (2602.00175v1) legt offen, dass die bislang als wirksam beworbenen unlearning‑Befehle bei Diffusionsmodellen lediglich die Verbindung zwischen sprachlichen Symbolen und dem zugrunde liegenden Wisse…