SafeLLM: LLMs ohne schädliche Inhalte dank gezieltem Unlearning
Jailbreak-Angriffe stellen eine ernsthafte Bedrohung für die Sicherheit großer Sprachmodelle (LLMs) dar, indem sie gezielte Eingaben nutzen, um die Alignment-Mechanismen zu umgehen und schädliche, eingeschränkte oder vo…