Neue Methode für stabiles Machine Unlearning dank statistischer Roughness

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der KI-Welt wird Machine Unlearning immer wichtiger, wenn Modelle gezielt bestimmte Datenpunkte „vergessen“ sollen, ohne dabei ihre Leistung zu verlieren. Doch bei modernen tiefen Netzwerken stößt die herkömmliche Technik häufig an ihre Grenzen: große oder gezielte Löschanfragen führen zu Instabilität, weil einzelne Schichten unterschiedlich robust sind.

Einige Layer behalten stabile, gut regulierte Darstellungen bei, während andere brüchig, untertrainiert oder überangepasst sind. Wenn Updates gleichmäßig verteilt werden, kann das zu katastrophalem Vergessen oder unerwarteten Dynamiken führen.

Die neue Technik namens Statistical‑Roughness Adaptive Gradient Unlearning (SRAGU) löst dieses Problem, indem sie die Unlearning‑Updates gezielt auf die stabilen Schichten konzentriert. Dazu nutzt SRAGU statistische Roughness‑Messungen – heavy‑tailed Spektraldiagnostik der Gewichtsmatrizen – um für jede Schicht einen Stabilitätswert zu bestimmen. Dieser Wert gewichtet die Sensitivität des ursprünglichen Adaptive Gradient Unlearning (AGU) und sorgt so dafür, dass schwächere oder überangepasste Schichten weniger stark aktualisiert werden.

In Tests zeigte SRAGU eine deutlich verbesserte Stabilität bei harten Löschanfragen. Die Übereinstimmung mit einem „Gold“-Referenzmodell, das von Grund auf neu auf den verbleibenden Daten trainiert wurde, wurde anhand von Vorhersage‑Abweichungen und KL‑Divergenzen gemessen. Zusätzlich wurde die Methode durch Membership‑Inference‑Audits ergänzt, um die Sicherheit weiter zu prüfen.

Diese Fortschritte markieren einen wichtigen Schritt hin zu robusteren und vertrauenswürdigeren KI‑Systemen, die gezielt und kontrolliert Daten entfernen können, ohne ihre Leistungsfähigkeit zu gefährden.

Ähnliche Artikel