Neural Networks setzen neue Maßstäbe bei privater Tabellendaten‑Synthese
In einer neuen Veröffentlichung auf arXiv wird die weit verbreitete Annahme in Frage gestellt, dass statistische Modelle bei der Erzeugung von differenziell privaten Tabellendaten überlegen sind. Die Autoren zeigen, dass insbesondere bei stark korrelierten Datensätzen die komplexen Abhängigkeiten statistische Verfahren überfordern, während neuronale Netzwerke diese Muster besser erfassen können.
Zur Lösung dieses Problems stellt das Team das Modell MargNet vor. Das System kombiniert bewährte algorithmische Ideen aus statistischen Methoden mit der Flexibilität neuronaler Netzwerke. Durch eine adaptive Auswahl von Randverteilungen (marginals) lernt das Netzwerk, synthetische Daten zu erzeugen, die exakt diesen Randverteilungen entsprechen. Auf Datensätzen mit geringer Korrelation erreicht MargNet eine Nutzenstufe, die der besten statistischen Methode nahekommt, und bietet gleichzeitig eine durchschnittliche Beschleunigung von siebenmal.
Bei stark korrelierten Daten übertrifft MargNet die bisherigen Spitzenrecherchen deutlich: Die Fehlerquote bei der Reproduktion der Daten wird um bis zu 26 % reduziert. Der Quellcode ist öffentlich auf GitHub verfügbar, sodass Forscher und Praktiker die Methode sofort einsetzen und weiterentwickeln können.