Recht auf Vergessen in KI: Skalierbare Unlearning-Methoden für große Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird das Recht auf Vergessen (GDPR Art. 17) für große Sprachmodelle systematisch untersucht. Der Ansatz betrachtet das Training als deterministisches Programm und zeichnet für jede Mikro‑Batch nur die nötigsten Daten auf: einen geordneten ID‑Hash, den Zufallszahlengenerator‑Seed, den Lernratenwert, einen Optimizer‑Schrittzähler und die Akkumulationsgrenze.

Durch das Festhalten dieser minimalen Informationen kann das Training am Ende des Modells exakt wiederholt werden, wobei nur die Schritte, die das zu verlassende Datenmaterial betreffen, herausgefiltert werden. Das Ergebnis ist identisch mit einem Training ausschließlich auf den verbleibenden Daten – byte‑genau in der gleichen Datentyp‑Präzision.

Um den Anforderungen an Latenz und Verfügbarkeit gerecht zu werden, ergänzt die Methode drei zusätzliche Pfade: (i) exakte Rücksetzungen der letzten Schritte mittels Mikro‑Checkpoints oder dichten Schritt‑Differenzen, (ii) das Löschen von Adapter‑Modulen in definierten Kohorten, wenn die Basis‑Gewichte eingefroren sind, und (iii) eine krümmungsgeleitete Anti‑Update‑Strategie, gefolgt von einer kurzen Retain‑Tuning‑Phase, die audit‑gesteuert eskaliert, falls nötig.

Die Autoren berichten über konkrete Speicher‑ und Latenzbudgets und stellen ein Test‑Artefakt vor, das die Funktionsweise demonstriert. In einem kontrollierten Lauf, bei dem alle Voraussetzungen erfüllt sind, wurde die Byte‑identische Gleichheit von Modell- und Optimizer‑Zuständen nachgewiesen, was die praktische Umsetzbarkeit der vorgeschlagenen Unlearning‑Techniken bestätigt.

Ähnliche Artikel