SHAP Distance: Neue Metrik zur Bewertung semantischer Treue synthetischer Daten
In der heutigen Datenwelt, in der synthetische Tabellen in Bereichen wie Gesundheitswesen, Unternehmensbetrieb und Kundenanalyse immer häufiger eingesetzt werden, ist es entscheidend, dass diese Daten sowohl die Privatsphäre schützen als auch die Nützlichkeit bewahren. Traditionelle Bewertungsmethoden konzentrieren sich meist auf statistische Ähnlichkeit – etwa die Kullback‑Leibler‑Divergenz – oder auf die Vorhersageleistung, etwa die Train‑on‑Synthetic‑Test‑on‑Real‑Genauigkeit. Diese Ansätze vernachlässigen jedoch die semantische Treue, also ob Modelle, die mit synthetischen Daten trainiert wurden, dieselben Entscheidungswege wie Modelle mit echten Daten verfolgen.