Neues Beobachtungs-Framework prüft Label-Privatsphäre ohne Datensatzänderung
In der Welt des maschinellen Lernens ist die Überprüfung von Differential Privacy (DP) entscheidend, um die Sicherheit von Modellen zu gewährleisten. Traditionelle Auditing-Methoden erfordern jedoch oft aufwändige Änderungen am Trainingsdatensatz, etwa das Einfügen von Out-of-Distribution-Canaries oder das Entfernen von Proben. Diese Vorgehensweise ist ressourcenintensiv und erfordert erheblichen Engineering-Aufwand.
Die neue Studie präsentiert ein innovatives Beobachtungs-Auditing-Framework, das die inhärente Zufälligkeit von Datenverteilungen nutzt. Dadurch lässt sich die Privatsphäre von Labels prüfen, ohne das ursprüngliche Dataset zu verändern. Das Verfahren erweitert die Möglichkeiten des Audits über klassische Membership Inference hinaus und adressiert damit einen wichtigen Lückenbereich in bestehenden Techniken.
Mit soliden theoretischen Grundlagen und praktischen Experimenten auf den Datensätzen Criteo und CIFAR‑10 demonstriert die Arbeit die Wirksamkeit des Ansatzes. Das Ergebnis ist ein vielversprechender Weg, um in groß angelegten Produktionsumgebungen realistische und ressourcenschonende Privacy-Audits durchzuführen.