Ghost‑Zertifikate: Unsichtbare Angriffe umgehen zertifizierte Sicherheit
In der Welt der KI‑Sicherheit versprechen zertifizierte Verteidigungen robuste Garantien gegen Angriffe. Neue Forschung zeigt jedoch, dass diese Garantien ausgenutzt werden können – und zwar auf eine Art, die bisher kaum beachtet wurde.
Das Ziel der Studie ist es nicht nur, einen Klassifikator zu täuschen, sondern auch den Zertifizierungsprozess selbst zu manipulieren. Durch gezielte Störungen soll ein Modell einen falschen, aber scheinbar großen Robustheitsradius für eine fehlerhafte Klasse ausgeben.
Eine frühere Arbeit bei ICLR hat gezeigt, dass große Eingabestörungen Eingaben in Bereiche verschieben können, in denen ein Zertifikat für die falsche Klasse generiert wird. Unsere Untersuchung prüft, ob diese Störungen klein und für den Menschen unsichtbar bleiben können, während sie dennoch die Zertifizierung täuschen.
Wir entwickeln regionale adversariale Beispiele, die unsichtbare Störungen erzeugen, Zertifikate fälschen und dabei Robustheitsradien erzielen, die größer sind als die ursprüngliche Klasse. Umfangreiche Tests auf ImageNet demonstrieren, dass wir moderne zertifizierte Verteidigungen wie DensePure effektiv umgehen können.
Die Ergebnisse verdeutlichen, dass die Grenzen von Robustheitszertifikaten besser verstanden werden müssen. Nur so lässt sich die Sicherheit von KI‑Systemen wirklich gewährleisten.