Diffusionsmodelle: Konzeptlöschung führt zu unerwarteten Nebenwirkungen
Die wachsende Nutzung von Text‑zu‑Bild‑Generatoren hat Bedenken hinsichtlich Datenschutz, Urheberrecht und Sicherheit ausgelöst. Um diese Risiken zu mindern, wurden sogenannte Concept Erasure Techniques (CETs) entwickelt, die das Erzeugen bestimmter, vom Nutzer festgelegter „Zielkonzepte“ verhindern sollen, während die Erzeugung anderer Inhalte erhalten bleibt.
Neue Forschungsergebnisse aus dem arXiv‑Pape 2508.15124 zeigen jedoch, dass CETs leicht umgangen werden können und gleichzeitig unerwünschte Nebeneffekte auftreten. Durch die Nutzung von Ober- und Unterklassenhierarchien sowie semantisch ähnlicher, zusammengesetzter Eingabeaufforderungen lassen sich die Zielkonzepte oft noch generieren.
Um die Robustheit von CETs systematisch zu prüfen, wurde das Side Effect Evaluation‑Benchmark eingeführt. Es umfasst hierarchische und zusammengesetzte Prompt‑Kombinationen, die Objekte und deren Attribute beschreiben. Die automatisierte Auswertung misst drei zentrale Aspekte: den Einfluss auf benachbarte Konzepte, die Umgehung der Zielkonzepte und das Leckage von Attributen.
Die Experimente zeigen, dass CETs nicht nur Zielkonzepte umgehen lassen, sondern auch zu unerwarteten Phänomenen führen, etwa einer Konzentration oder Verteilung der Aufmerksamkeit. Zudem werden Attribute der Zielkonzepte ungewollt weitergegeben.
Die Autoren stellen ihr Benchmark‑Dataset, den zugehörigen Code und die Evaluationswerkzeuge frei, um die Entwicklung robusterer Konzeptlöschungs‑Methoden zu unterstützen.