MoE-LLMs: Gefahr unautorisierter Kompression durch gezieltes Pruning
Modulare Mixture-of-Experts-Architekturen werden immer häufiger in großen Sprachmodellen eingesetzt, weil sie Skalierbarkeit und Effizienz kombinieren. Gleichzeitig eröffnen sie jedoch ein neues Sicherheitsrisiko: Angreifer können gezielt einzelne Experten entfernen und das verbliebene Modell kostengünstig anpassen, wodurch Lizenz- und Sicherheitsbeschränkungen umgangen werden können.
In der vorliegenden Studie wurde ein systematisches Verfahren entwickelt, um die für eine bestimmte Aufgabe verantwortlichen Experten zu identifizieren. Anschließend wurden diese Experten gezielt entfernt und die verbleibenden Modelle mithilfe eines aktiven Lernansatzes feinjustiert. Die Experimente zeigen, dass ein klarer Kompromiss zwischen Wissensverlust und Wiedergewinn besteht: Während einige Experten isoliert werden können, ohne die Aufgabenleistung stark zu beeinträchtigen, führt das Fehlen gezielter Re‑Alignment‑Schritte zu erheblichen Leistungsabfällen.
Basierend auf diesen Erkenntnissen wurden mehrere Verteidigungsmaßnahmen vorgeschlagen. Dazu gehören das gleichzeitige Training aller Experten (entangled training) sowie selektive Feinabstimmungsprotokolle, die das Modell widerstandsfähiger gegen unautorisierte Anpassungen machen. Diese Ansätze zielen darauf ab, die Kompression und das Fine‑Tuning ohne Genehmigung zu erschweren.
Die Arbeit unterstreicht die doppelte Natur der Modularity von MoE-LLMs: Sie bietet sowohl erhebliche Vorteile als auch potenzielle Angriffsflächen. Mit dem ersten systematischen Evaluationsrahmen für die sichere Spezialisierung von MoE-LLMs liefert die Studie wertvolle Leitlinien für Entwickler und Sicherheitsforscher gleichermaßen.