Forschung
SafeLLM: LLMs ohne schädliche Inhalte dank gezieltem Unlearning
Jailbreak-Angriffe stellen eine ernsthafte Bedrohung für die Sicherheit großer Sprachmodelle (LLMs) dar, indem sie gezielte Eingaben nutzen…
arXiv – cs.LG