Neuer Jailbreak-Ansatz NINJA nutzt lange, harmlose Kontexte, um LMs zu umgehen

In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Jailbreak-Ansatz namens NINJA vorgestellt, der die Sicherheit moderner Sprachmodelle (LMs) in Frage stellt. Durch das Anhängen von scheinbar harmlosen, vom Modell selbst generierten Texten an die Eingabe werden gefährliche Nutzerziele geschickt in den Kontext eingebettet.

Die Forscher betonen, dass die Position der schädlichen Ziele innerhalb des langen Kontexts entscheidend für die Wirksamkeit des Angriffs ist. Auf dem etablierten Sicherheitsbenchmark HarmBench konnten sie zeigen, dass NINJA die Erfolgsraten bei Angriffen auf führende Open-Source- und proprietäre Modelle – darunter LLaMA, Qwen, Mistral und Gemini – deutlich steigert.

Im Gegensatz zu bisherigen Jailbreak-Methoden ist NINJA ressourcenschonend, übertragbar und schwerer zu erkennen. Zudem demonstrieren die Autoren, dass bei festem Rechenbudget ein längerer Kontext die Anzahl der Versuche übertrifft, was die Methode besonders effizient macht.

Die Ergebnisse verdeutlichen, dass selbst scheinbar harmlos wirkende, lange Kontexte, wenn sie gezielt gestaltet sind, fundamentale Schwachstellen in heutigen Sprachmodellen ausnutzen können. Dies wirft neue Fragen zur Sicherheit und zum Design von LMs auf und unterstreicht die Notwendigkeit, die Position von Zielanweisungen im Kontext genauer zu untersuchen.

Ähnliche Artikel