FusionDP: DP für teilweise sensible Features mit Foundation-Modellen
Der Schutz sensibler Trainingsdaten ist in der datenschutzorientierten KI von entscheidender Bedeutung. In vielen Praxisfällen muss jedoch nur ein Teil der Features geschützt werden – etwa demografische Angaben in Intensivdaten, die ein hohes Re‑Identifikationsrisiko bergen, während Laborwerte weniger sensibel sind. Traditionelle DP‑SGD‑Ansätze schützen sämtliche Features gleichzeitig, was zu übermäßiger Rauschzufuhr und erheblichem Nutzenverlust führt.
FusionDP bietet einen zweistufigen Ansatz, um die Privatsphäre auf Feature‑Ebene zu wahren und gleichzeitig die Modellleistung zu steigern. Zunächst nutzt das System große Foundation‑Modelle, um sensible Features anhand der nicht‑sensiblen zu imputieren. Diese Imputationen dienen als externe Priors, ohne dass die wahren Werte während des Trainings zugänglich sind. Anschließend wird ein modifiziertes DP‑SGD‑Verfahren eingesetzt, das sowohl die Original‑ als auch die imputierten Features trainiert und dabei die Privatsphäre der ursprünglichen sensiblen Features formal schützt.
In zwei Anwendungsfällen – einer Sepsis‑Vorhersage mit tabellarischen Daten aus PhysioNet und einer Klassifikation klinischer Notizen aus MIMIC‑III – zeigte FusionDP gegenüber herkömmlichen privacy‑preserving Baselines eine signifikante Leistungsverbesserung, während die strenge Feature‑Level‑Privatsphäre erhalten blieb. Die Ergebnisse unterstreichen das Potenzial von Foundation‑Modelle‑gestützter Imputation, das Gleichgewicht zwischen Datenschutz und Nutzen in vielfältigen Modalen zu optimieren.