GRIP: Geometrische Routerbeschränkung für Unlearning bei Mixture-of-Experts

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Sicherheit großer Sprachmodelle hängt zunehmend von der Fähigkeit ab, gezielt Wissen zu löschen – ein Prozess, der als Machine Unlearning bezeichnet wird. Für die neueste Architektur, die Mixture-of-Experts (MoE), stoßen bisherige Methoden jedoch an ihre Grenzen, weil sie die Router manipulieren, um Anfragen von kompetenten Experten abzulenken, statt das Wissen tatsächlich zu entfernen. Das führt zu einem Verlust an Modellleistung und nur oberflächlichem Vergessen.

Mit dem neuen Ansatz GRIP (Geometric Routing Invariance Preservation) wird dieses Problem elegant gelöst. GRIP ist ein algorithmusunabhängiges Framework, das eine geometrische Beschränkung einführt: Router‑Gradienten werden in einen expertspezifischen Nullraum projiziert. Dadurch bleibt die Auswahl der Experten stabil, während die Router‑Parameter innerhalb des Nullraums flexibel bleiben und das Modell notwendige interne Anpassungen vornehmen kann, um die Unlearning‑Ziele zu erfüllen.

Der Schlüssel liegt darin, dass GRIP die Router‑Updates einschränkt, ohne die zugrunde liegenden Unlearning‑Algorithmen zu verändern. In umfangreichen Experimenten mit großen MoE‑Modellen erzielte GRIP eine Routing‑Stabilität von über 95 % bei allen getesteten Unlearning‑Methoden und bewahrte gleichzeitig deren Leistungsfähigkeit.

GRIP bietet damit eine robuste, vielseitige Lösung, die das Unlearning in Mixture-of-Experts‑Architekturen sicher und effektiv gestaltet – ein bedeutender Fortschritt für die KI‑Sicherheit.

Ähnliche Artikel