SHAP Distance: Neue Metrik zur Bewertung semantischer Treue synthetischer Daten
In der heutigen Datenwelt, in der synthetische Tabellen in Bereichen wie Gesundheitswesen, Unternehmensbetrieb und Kundenanalyse immer häufiger eingesetzt werden, ist es entscheidend, dass diese Daten sowohl die Privatsphäre schützen als auch die Nützlichkeit bewahren. Traditionelle Bewertungsmethoden konzentrieren sich meist auf statistische Ähnlichkeit – etwa die Kullback‑Leibler‑Divergenz – oder auf die Vorhersageleistung, etwa die Train‑on‑Synthetic‑Test‑on‑Real‑Genauigkeit. Diese Ansätze vernachlässigen jedoch die semantische Treue, also ob Modelle, die mit synthetischen Daten trainiert wurden, dieselben Entscheidungswege wie Modelle mit echten Daten verfolgen.
Um diese Lücke zu schließen, präsentiert die neue Studie die SHAP Distance, eine erklärungsorientierte Metrik, die die Kosinus‑Distanz zwischen den globalen SHAP‑Attributionsvektoren von Klassifikatoren, die auf realen und synthetischen Datensätzen trainiert wurden, misst. Durch die Analyse von Datensätzen aus klinischen Gesundheitsakten, Unternehmensrechnungen mit heterogenen Skalen und Telekommunikations‑Churn‑Logs mit gemischten kategorialen und numerischen Merkmalen zeigt die SHAP Distance zuverlässig semantische Diskrepanzen auf, die herkömmliche statistische und prädiktive Messgrößen übersehen.
Insbesondere demonstriert die Untersuchung, dass die SHAP Distance Verschiebungen in der Feature‑Wichtigkeit sowie unterrepräsentierte Randeffekte erkennt – Aspekte, die weder die Kullback‑Leibler‑Divergenz noch die Train‑on‑Synthetic‑Test‑on‑Real‑Genauigkeit erfassen. Damit bietet die SHAP Distance ein praktisches und differenzierendes Werkzeug zur Überprüfung der semantischen Treue synthetischer Daten, das sowohl für Forschung als auch für die Industrie von großem Nutzen sein kann.