LEGATO: Kontinuierliches Vergessen von Identitäten in generativen Modellen
Die Möglichkeit, generative Modelle gezielt von sensiblen oder urheberrechtlich geschützten Daten zu befreien, hat sich zu einer Schlüsseltechnologie entwickelt. Trotz des wachsenden Interesses stoßen bisherige Machine‑Unlearning‑Ansätze an drei wesentliche Grenzen: sie sind ineffizient, weil das Vergessen die komplette Feinabstimmung aller Parameter erfordert; sie bieten kaum Kontrolle über die Vergessensintensität und lassen sich kaum erklären; und sie führen häufig zu einem katastrophalen Zusammenbruch der Modellleistung, wenn das Vergessen fortschreitet.
LEGATO (Learn to ForgEt Identity in GenerAtive Models via Trajectory‑consistent Neural Ordinary Differential Equations) schlägt einen radikalen Paradigmenwechsel vor: das Vergessen wird als kontinuierliche Trajektorie modelliert. Durch die Ergänzung vortrainierter Generatoren um leichtgewichtige, feinjustierbare Neural‑ODE‑Adapter können die ursprünglichen Modellgewichte unverändert bleiben, während das Vergessen sanft und kontrollierbar erfolgt.
Die Intensität des Vergessens lässt sich präzise über die Schrittgröße der ODE steuern, was nicht nur eine klare Interpretierbarkeit ermöglicht, sondern auch die Robustheit gegenüber unerwarteten Schwankungen erhöht. Zusätzlich setzt LEGATO Trajektorienkonsistenzbeschränkungen ein, die explizit verhindern, dass das Modell während des Unlearning-Prozesses zusammenbricht.
Umfangreiche Tests an In‑Domain‑ und Out‑of‑Domain‑Benchmarks für die Identitäts‑Unlearning‑Aufgabe zeigen, dass LEGATO die bisherige Leistung deutlich übertrifft und dabei die Stabilität sowie die Kontrolle über das Vergessen beibehält.