KI-Framework löst Datenschutzprobleme bei Duplikaterkennung im Gesundheitswesen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In Kundenbeziehungsmanagement und Gesundheitsdaten entstehen durch doppelte Einträge erhebliche Probleme: Analysen werden verzerrt, Nutzererfahrungen leiden und Compliance-Risiken steigen. Traditionelle Verfahren zur Duplikaterkennung setzen stark auf direkte Identifikatoren wie Namen, E‑Mails oder Sozialversicherungsnummern – Daten, die unter strengen Datenschutzgesetzen wie der DSGVO und HIPAA geschützt oder maskiert werden müssen.

Die vorgestellte Lösung ist ein skalierbares, multimodales KI-Framework, das ohne sensible Informationen arbeitet. Es nutzt drei unterschiedliche Modalitäten: semantische Einbettungen aus Textfeldern (z. B. Namen, Städte) mittels vortrainierter DistilBERT‑Modelle, Verhaltensmuster aus Anmeldezeitpunkten und Gerätemetadaten, die über kategoriale Einbettungen kodiert werden. Durch eine späte Fusion dieser heterogenen Signale und die anschließende Clusterbildung mit dem unüberwachten Algorithmus DBSCAN werden potenzielle Duplikate identifiziert.

In einer Evaluation gegen eine herkömmliche String‑Matching‑Basis auf einem synthetischen CRM‑Datensatz, der die Anforderungen an Datenschutz widerspiegelt, erzielte das multimodale Modell einen hohen F1‑Score. Es konnte Duplikate zuverlässig erkennen, selbst bei variierenden und verrauschten Daten.

Diese Methode bietet eine datenschutzkonforme Alternative zur Entitätserkennung, stärkt die Sicherheit digitaler Infrastrukturen und verbessert die Zuverlässigkeit von öffentlichen Gesundheitsanalysen. Sie zeigt, dass KI‑gestützte, multimodale Ansätze die Balance zwischen Genauigkeit und Privatsphäre erfolgreich halten können.

Ähnliche Artikel