CanaryBench: Testet Privatsphäre in Cluster‑Zusammenfassungen von Chat‑Daten
In der heutigen KI‑Welt werden große Mengen an Gesprächsdaten häufig analysiert, um Sicherheit, Governance und Produktqualität zu überwachen. Dabei werden Konversationen oft in Cluster gruppiert und anschließend kurze Textzusammenfassungen veröffentlicht. Obwohl die Rohdaten selbst nicht öffentlich zugänglich sind, können diese Zusammenfassungen dennoch sensible Informationen preisgeben, wenn sie persönliche Daten oder eindeutig identifizierbare Strings enthalten.
CanaryBench ist ein einfaches, reproduzierbares Testverfahren, das genau diese Gefahr aufzeigt. Das Tool erzeugt synthetische Gespräche, in die gezielt „Canary“-Strings – also bekannte Geheimzeichen – eingebettet werden. Sobald ein solcher String in einer veröffentlichten Zusammenfassung auftaucht, ist ein Datenschutzleck eindeutig nachweisbar.
In einem Experiment mit 3.000 synthetischen Gesprächen zu 24 Themen, bei einer Canary‑Injektionsrate von 0,60, wurden TF‑IDF‑Einbettungen und k‑Means‑Clustering eingesetzt. Ein extraktiver Summarizer, der zitiertähnliche Berichte erzeugt, zeigte Canary‑Lecks in 50 von 52 betroffenen Clustern – ein Leckerrate von 96,15 %. Zusätzlich traten regex‑basierte PII‑Indikatoren auf.
Durch die Kombination einer Mindestclustergröße von 25 und einer regex‑basierten Redaktion konnten die gemessenen Canary‑Lecks sowie PII‑Indikatoren vollständig eliminiert werden, ohne die Kohärenz der Cluster zu beeinträchtigen. CanaryBench bietet damit eine wertvolle Methode, um die Privatsphäre bei der Veröffentlichung von Cluster‑Zusammenfassungen systematisch zu prüfen und zu schützen.