CLIP-Fed: Vision‑Language‑Model schützt Federated Learning vor Backdoor‑Angriffen
Backdoor‑Angriffe stellen eine ernsthafte Bedrohung für Federated Learning (FL) dar, insbesondere wenn die Daten der Clients stark unterschiedlich verteilt sind. Traditionelle Verteidigungsansätze setzen häufig auf homogene Datenverteilungen oder auf die Verfügbarkeit sauberer Server‑Datensätze – Voraussetzungen, die in der Praxis selten gegeben sind.
CLIP‑Fed ist ein neu entwickeltes Verteidigungsframework, das die Zero‑Shot‑Learning‑Fähigkeiten von vision‑language‑Pre‑training‑Modellen nutzt. Durch die Kombination von Prä‑ und Post‑Aggregation‑Strategien überwindet CLIP‑Fed die Einschränkungen, die durch nicht‑identische (Non‑IID) Daten entstehen, und schützt das globale Modell effektiv vor Backdoor‑Manipulationen.
Um Datenschutzbedenken zu adressieren und die Abdeckung des Server‑Datensatzes gegen vielfältige Trigger zu erhöhen, erstellt CLIP‑Fed einen augmentierten Datensatz mithilfe eines multimodalen großen Sprachmodells und einer Frequenzanalyse – und benötigt dabei keine Client‑Samples.
Die Methode reduziert die Korrelation zwischen Trigger‑Mustern und Ziel‑Labels, indem sie das globale Modell und CLIP auf dem augmentierten Datensatz mit einem prototypen‑kontrastiven Verlust sowie der Kullback‑Leibler‑Divergenz abstimmt. Dadurch werden Abweichungen der Klassenprototypen, die durch Backdoor‑Samples entstehen, ausgeglichen.
Umfangreiche Experimente auf den Standard‑Datensätzen CIFAR‑10 und CIFAR‑10‑LT zeigen, dass CLIP‑Fed die Angriffsrate (ASR) im Durchschnitt um 2,03 % bzw. 1,35 % senkt und gleichzeitig die durchschnittliche Modell‑Genauigkeit (MA) um 7,92 % bzw. 0,48 % steigert – deutlich besser als aktuelle State‑of‑the‑Art‑Methoden.
CLIP‑Fed bietet damit einen praxisnahen, leistungsstarken Schutz für Federated‑Learning‑Systeme, selbst bei stark heterogenen Client‑Daten, und setzt neue Maßstäbe in der Verteidigung gegen Backdoor‑Angriffe.