Knowledge Distillation dominiert bei privatschutzoptimierten klinischen Sprachmodellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Vergleichsstudie auf arXiv zeigt, welche Methoden zum Schutz sensibler Patientendaten in klinischen Sprachmodellen am effektivsten sind.

Die Autoren haben vier Trainingspipelines verglichen, die alle ein 1‑Billionen‑Parameter-Modell nutzen und denselben Datenschutzbudget (ε = 4, 6) einsetzen, um ICD‑9‑Codes aus Entlassungsberichten zu generieren.

Bei moderaten und lockeren Budgets übertrifft das Wissenstransferverfahren (Knowledge Distillation) sowohl den direkten DP‑SGD-Ansatz als auch das Training mit synthetischen Daten. Es kann bis zu 63 % der Leistung eines nicht‑privaten Modells zurückgewinnen und gleichzeitig eine starke Privatsphäre beibehalten, wie die Membership‑Inference‑AUC von ca. 0,5 zeigt.

Die Ergebnisse verdeutlichen, dass die Privatsphäre‑Nutzen‑Abwägung je nach Architektur stark variiert. Knowledge Distillation erweist sich als die praktischste Lösung für den Einsatz von datenschutzkonformen klinischen NLP‑Systemen.

Die Studie liefert damit einen klaren Leitfaden für Entwickler, die robuste, datenschutzfreundliche Modelle für die medizinische Diagnostik bauen wollen.

Ähnliche Artikel