GRIP: Geometrische Routerbeschränkung für Unlearning bei Mixture-of-Experts
Die Sicherheit großer Sprachmodelle hängt zunehmend von der Fähigkeit ab, gezielt Wissen zu löschen – ein Prozess, der als Machine Unlearning bezeichnet wird. Für die neueste Architektur, die Mixture-of-Experts (MoE), stoßen bisherige Methoden jedoch an ihre Grenzen, weil sie die Router manipulieren, um Anfragen von kompetenten Experten abzulenken, statt das Wissen tatsächlich zu entfernen. Das führt zu einem Verlust an Modellleistung und nur oberflächlichem Vergessen.