JailExpert: Mit Erfahrung zum 17 % höheren Erfolg bei LLM‑Jailbreaks
Moderne Sprachmodelle erzeugen zwar größtenteils sicherheitskonformes Material, doch mit sogenannten „Jailbreak‑Prompts“ lassen sich diese Schutzmechanismen umgehen. Die Forschung zu solchen Angriffen dient dazu, Schwac…