RAPID: Risiko von Attributvorhersagen in synthetischen Mikrodaten
In einer neuen Studie wurde ein innovatives Messinstrument namens RAPID (Risk of Attribute Prediction–Induced Disclosure) vorgestellt, das die Gefahr von Attributinferenz in synthetischen Mikrodaten quantifiziert. Während klassische Identitätsprüfungen bei vollständig synthetischen Datensätzen an Aussagekraft verlieren, fokussiert RAPID darauf, wie leicht ein Angreifer sensible Merkmale aus den veröffentlichten Daten ableiten kann.
Das Konzept beruht auf einem realistischen Angriffsmodell: Ein Angreifer trainiert ein Vorhersagemodell ausschließlich mit den synthetischen Daten und wendet es anschließend auf die Quasi‑Identifikatoren echter Personen an. Für kontinuierliche Attribute gibt RAPID an, welcher Anteil der Datensätze innerhalb eines festgelegten relativen Fehlertoleranzbereichs liegt. Bei kategorialen Attributen wird ein normalisierter Vertrauenswert berechnet, der misst, wie viel sicherer der Angreifer über die wahre Klasse ist als es allein durch die Klassenhäufigkeit erklärt werden könnte. Der Gesamtrisiko‑Score ergibt sich aus dem Anteil der Datensätze, die einen vorgegebenen Schwellenwert überschreiten.
Ein wesentlicher Vorteil von RAPID ist seine Interpretierbarkeit und Obergrenze: Der Wert liegt stets zwischen 0 und 1, ist robust gegen Klassenungleichgewichte und unabhängig vom verwendeten Synthesizer. Zudem lässt sich das Verfahren mit beliebigen Lernalgorithmen kombinieren, was es zu einem vielseitigen Werkzeug für die Bewertung von synthetischen Datensätzen macht.
Die Autoren demonstrierten die praktische Anwendbarkeit von RAPID durch Schwellenwert‑Kalibrierung, Unsicherheitsquantifizierung und einen Vergleich verschiedener synthetischer Generatoren. Simulationen sowie Analysen realer Datensätze zeigten, dass RAPID einen attacker‑realistischen oberen Grenzwert für die Inferenz‑Risiken liefert und damit bestehende Utility‑Diagnosen sowie Datenschutz‑Frameworks sinnvoll ergänzt.
Mit RAPID erhalten Forscher und Praktiker ein robustes, leicht verständliches Instrument, um die Sicherheit synthetischer Mikrodaten zu beurteilen und fundierte Entscheidungen über deren Freigabe zu treffen.