Generative KI: „Associative Poisoning“ manipuliert feine Merkmale
Die rasante Verbreitung von generativen Modellen wie Stable Diffusion und ChatGPT hat sie zu begehrten Zielen für böswillige Angriffe gemacht. Besonders gefährlich sind Datenvergiftungen, die die Qualität der erzeugten Inhalte mindern oder die Trainingsprozesse manipulieren.
In der neuen Studie wird eine völlig neue Technik vorgestellt – das sogenannte „Associative Poisoning“. Im Gegensatz zu bisherigen Angriffen erfordert diese Methode keinen Zugriff auf das Training selbst. Stattdessen werden gezielt die Trainingsdaten verändert, um die statistischen Zusammenhänge zwischen ausgewählten Merkmalen in den generierten Ausgaben zu steuern.
Die Autoren liefern eine formale mathematische Beschreibung des Angriffs und beweisen seine theoretische Machbarkeit sowie seine Tarnfähigkeit. Durch die Beibehaltung der Randverteilungen der betroffenen Merkmale bleibt die Qualität der generierten Inhalte unverändert, sodass die Manipulation visuell unauffällig bleibt.
Empirische Tests an zwei hochmodernen generativen Modellen zeigen, dass das „Associative Poisoning“ gezielt Merkmalsassoziationen erzeugen oder unterdrücken kann, ohne die Gesamtqualität zu beeinträchtigen. Damit wird deutlich, dass Bildsynthese, synthetische Datensatzgenerierung und sogar NLP-Systeme anfällig für subtile, aber wirkungsvolle statistische Manipulationen sind.
Die Autoren diskutieren die Schwächen bestehender Abwehrmechanismen und schlagen eine neue Gegenstrategie vor, um diese Art von Angriffen zu erkennen und abzuwehren. Die Ergebnisse unterstreichen die Notwendigkeit, generative KI-Systeme gegen raffinierte, datenbasierte Angriffe zu schützen.