SynQP: Open-Framework für Qualität und Datenschutz bei synthetischen Daten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der medizinischen Forschung gewinnt die Nutzung synthetischer Daten immer mehr an Bedeutung, doch gleichzeitig wächst die Sorge um den Schutz sensibler Informationen. Ein entscheidendes Hindernis war das Fehlen von offenen, nachvollziehbaren Rahmenwerken, die die Privatsphäre von generierten Datensätzen bewerten können. Mit SynQP wird dieses Problem angegangen: Das neue Open-Framework ermöglicht Benchmarking von Datenschutzrisiken bei der synthetischen Datengenerierung (SDG) unter Einsatz von simulierten, sensiblen Daten, sodass die Originaldaten vertraulich bleiben.

SynQP betont die Notwendigkeit von Metriken, die die probabilistische Natur von Machine‑Learning-Modellen angemessen berücksichtigen. Als Beispiel demonstriert das Team die Anwendung von SynQP auf CTGAN und führt eine neue Metrik zur Identitätsaufdeckungsrisikoanalyse ein, die laut den Autoren eine genauere Abschätzung der Datenschutzrisiken bietet als bisherige Ansätze.

Die Ergebnisse zeigen, dass Modelle ohne Datenschutzmaßnahmen nahezu perfekte Machine‑Learning‑Leistungen (≥ 0,97) erzielen, während Modelle mit Differential Privacy (DP) sowohl das Identitätsaufdeckungsrisiko (SD‑IDR) als auch das Risiko von Membership‑Inference‑Attacken (SD‑MIA) deutlich senken. Alle DP‑augmentierten Modelle liegen unter dem regulatorischen Schwellenwert von 0,09.

SynQP stellt damit ein entscheidendes Werkzeug dar, um die Transparenz und Zuverlässigkeit von Datenschutzbewertungen zu erhöhen und die sichere Nutzung synthetischer Daten in gesundheitsbezogenen Anwendungen zu fördern. Der Code ist frei verfügbar unter https://github.com/CAN-SYNH/SynQP.

Ähnliche Artikel