SafeLLM: LLMs ohne schädliche Inhalte dank gezieltem Unlearning
Jailbreak-Angriffe stellen eine ernsthafte Bedrohung für die Sicherheit großer Sprachmodelle (LLMs) dar, indem sie gezielte Eingaben nutzen, um die Alignment-Mechanismen zu umgehen und schädliche, eingeschränkte oder voreingenommene Inhalte zu erzeugen.
Um diesem Problem entgegenzuwirken, präsentiert die neue Studie das Framework SafeLLM, das auf Unlearning basiert. Dabei wird das Modell gezielt von schädlichem Wissen befreit, während die sprachliche Fließfähigkeit und die allgemeinen Fähigkeiten erhalten bleiben.
SafeLLM setzt auf einen dreistufigen Prozess: Erst wird mit einer hybriden Methode die Erzeugung unsicherer Ausgaben dynamisch erkannt. Anschließend werden schädliche Inhalte auf Token-Ebene durch die Analyse von Feedforward‑Netzwerk‑Aktivierungen lokalisiert. Abschließend erfolgt eine konstrained‑Optimierung, die das Modell dazu bringt, die gefährlichen Verhaltensweisen zu unterdrücken, ohne die Gesamtqualität zu verschlechtern.
Durch die gezielte Neutralisierung von Teilstrukturen im Feedforward‑Netzwerk erreicht SafeLLM ein irreversibles Vergessen der schädlichen Wissenspfade. Das Ergebnis ist ein Modell, das gezielt und dauerhaft von gefährlichen Inhalten befreit ist.
Umfangreiche Tests an führenden LLMs wie Vicuna, LLaMA und GPT‑J, die mehrere Jailbreak‑Benchmarks abdecken, zeigen, dass SafeLLM die Erfolgsraten von Angriffen deutlich reduziert, während die allgemeine Leistungsfähigkeit unverändert hoch bleibt.
Im Vergleich zu herkömmlichen Verteidigungsansätzen wie supervised fine‑tuning oder direct preference optimization bietet SafeLLM stärkere Sicherheitsgarantien, präzisere Kontrolle über schädliches Verhalten und eine höhere Robustheit gegenüber bislang unbekannten Angriffen.
Die Ergebnisse unterstreichen das Potenzial von Unlearning als vielversprechenden Ansatz, um die Sicherheit von Sprachmodellen nachhaltig zu verbessern.