Machine Unlearning: Unsichtbare Gefahr durch Restwissen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Machine Unlearning bietet eine praktische Alternative zum vollständigen Neu‑Training von Modellen, indem es den Einfluss bestimmter Nutzerdaten entfernt. Doch neue Forschungsergebnisse zeigen, dass diese Technik ein bislang unentdecktes Risiko birgt: selbst leicht veränderte „vergessene“ Stichproben können von dem unlearned Modell noch korrekt erkannt werden, während ein neu trainiertes Modell dies nicht mehr tut.

Dieses Phänomen, das die Autoren als „Restwissen“ bezeichnen, bedeutet, dass Informationen über die vergessenen Daten in ihrem lokalen Umfeld verbleiben. Die Autoren haben die Schwachstelle formalisiert und nachgewiesen, dass sie in hochdimensionalen Szenarien unvermeidlich ist.

Um diesem Risiko entgegenzuwirken, wurde die Fein‑Tuning‑Strategie RURK entwickelt. RURK fügt dem Lernprozess eine Strafkomponente hinzu, die das Modell daran hindert, veränderte Vergessens‑Samples erneut zu erkennen.

Experimentelle Tests an Bild‑Benchmarks mit tiefen neuronalen Netzen zeigen, dass Restwissen bei allen bisher untersuchten Unlearning‑Methoden verbreitet ist. Gleichzeitig demonstriert RURK, dass das Restwissen effektiv eliminiert werden kann, ohne die Modellleistung zu beeinträchtigen.

Ähnliche Artikel