Source‑Free Machine Unlearning: Effizientes Löschen ohne Originaldaten
Mit dem rasanten Ausbau von KI-Systemen und strengeren Datenschutzbestimmungen wird das gezielte Entfernen von privaten oder urheberrechtlich geschützten Daten aus bereits trainierten Modellen immer wichtiger.
Traditionelle Unlearning‑Methoden setzen voraus, dass der komplette Trainingsdatensatz während des Vergessensprozesses noch verfügbar ist – ein Szenario, das in der Praxis selten zutrifft. Das neue Verfahren arbeitet im sogenannten source‑free Setting, bei dem das Modell ohne Zugriff auf die ursprünglichen Daten bereinigt werden kann.
Die Forscher haben eine Technik entwickelt, mit der die Hessian‑Matrix der noch vorhandenen, unbekannten Trainingsdaten geschätzt werden kann. Diese Schätzung bildet die Grundlage für ein effizientes, sogenanntes Zero‑Shot‑Unlearning, das gleichzeitig theoretisch fundierte Garantien für die Qualität des Vergessens liefert und die Leistung des Modells auf den verbliebenen Daten unverändert lässt.
Umfangreiche Experimente auf einer Vielzahl von Datensätzen zeigen, dass das neue Verfahren sowohl die gewünschte Bereinigung als auch die Modellleistung zuverlässig erhält – ein bedeutender Fortschritt für datenschutzfreundliche KI.