Lokale LLMs für kontextbewusste, adaptive Anonymisierung sensibler Texte
Qualitative Forschung birgt oft persönliche, kontextuelle und organisatorische Details, die ohne sorgfältige Behandlung erhebliche Datenschutzrisiken darstellen. Traditionelle, manuelle Anonymisierung ist zeitaufwendig, inkonsistent und lässt häufig kritische Identifikatoren unberücksichtigt. Automatisierte Werkzeuge, die sich auf Mustererkennung oder starre Regeln stützen, greifen dabei zu kurz und können die Bedeutung der Daten verfälschen.
In der vorliegenden Studie wird gezeigt, wie lokale Large Language Models (LLMs) einen zuverlässigen, wiederholbaren und kontextbewussten Anonymisierungsprozess ermöglichen. Das neue Structured Framework for Adaptive Anonymizer (SFAA) gliedert sich in drei Schritte: Erkennung, Klassifizierung und adaptive Anonymisierung. Dabei kommen vier Strategien zum Einsatz – regelbasierte Substitution, kontextbewusste Umschreibung, Generalisierung und Unterdrückung – die je nach Identifikator und Risikostufe angewendet werden. Der Ansatz orientiert sich an internationalen Datenschutz- und Forschungsethikstandards wie der DSGVO, HIPAA und den OECD-Richtlinien.
Zur Bewertung wurde ein dualer Ansatz gewählt, der manuelle und LLM‑unterstützte Verarbeitung kombiniert. Zwei Fallstudien verdeutlichen die Wirksamkeit: 82 persönliche Interviews zum Thema Gamification in Organisationen und 93 maschinell geführte Interviews mit einem KI‑Interviewpartner, um die Sensibilität von LLMs für Arbeitsplatz‑Datenschutz zu testen. Die Modelle LLaMA und Phi wurden eingesetzt, um die Leistung des Frameworks zu prüfen. Die Ergebnisse zeigen, dass die lokale LLM‑basierte Anonymisierung die Genauigkeit erhöht, den Bearbeitungsaufwand reduziert und die Einhaltung der Datenschutzvorgaben verbessert.