Neuer Jailbreak-Ansatz NINJA nutzt lange, harmlose Kontexte, um LMs zu umgehen
In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Jailbreak-Ansatz namens NINJA vorgestellt, der die Sicherheit moderner Sprachmodelle (LMs) in Frage stellt. Durch das Anhängen von scheinbar harmlosen, vom Modell selbst generierten Texten an die Eingabe werden gefährliche Nutzerziele geschickt in den Kontext eingebettet.