Forschung arXiv – cs.AI

Neuer Jailbreak-Ansatz NINJA nutzt lange, harmlose Kontexte, um LMs zu umgehen

10.11.2025 05:00 • ≈1 Min. Lesezeit • Originalquelle

#Jailbreak #NINJA #HarmBench #LLaMA #Qwen #Mistral #Gemini #Sprachmodelle

Kernaussagen

Das nimmst du aus dem Beitrag mit

In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Jailbreak-Ansatz namens NINJA vorgestellt, der die Sicherheit moderner Sprachmodelle (LMs) in Fr…
Durch das Anhängen von scheinbar harmlosen, vom Modell selbst generierten Texten an die Eingabe werden gefährliche Nutzerziele geschickt in den Kontext eingebettet.
Die Forscher betonen, dass die Position der schädlichen Ziele innerhalb des langen Kontexts entscheidend für die Wirksamkeit des Angriffs ist.

In einer kürzlich veröffentlichten Studie auf arXiv wird ein innovativer Jailbreak-Ansatz namens NINJA vorgestellt, der die Sicherheit moderner Sprachmodelle (LMs) in Frage stellt. Durch das Anhängen von scheinbar harmlosen, vom Modell selbst generierten Texten an die Eingabe werden gefährliche Nutzerziele geschickt in den Kontext eingebettet.

Die Forscher betonen, dass die Position der schädlichen Ziele innerhalb des langen Kontexts entscheidend für die Wirksamkeit des Angriffs ist. Auf dem etablierten Sicherheitsbenchmark HarmBench konnten sie zeigen, dass NINJA die Erfolgsraten bei Angriffen auf führende Open-Source- und proprietäre Modelle – darunter LLaMA, Qwen, Mistral und Gemini – deutlich steigert.

Im Gegensatz zu bisherigen Jailbreak-Methoden ist NINJA ressourcenschonend, übertragbar und schwerer zu erkennen. Zudem demonstrieren die Autoren, dass bei festem Rechenbudget ein längerer Kontext die Anzahl der Versuche übertrifft, was die Methode besonders effizient macht.

Die Ergebnisse verdeutlichen, dass selbst scheinbar harmlos wirkende, lange Kontexte, wenn sie gezielt gestaltet sind, fundamentale Schwachstellen in heutigen Sprachmodellen ausnutzen können. Dies wirft neue Fragen zur Sicherheit und zum Design von LMs auf und unterstreicht die Notwendigkeit, die Position von Zielanweisungen im Kontext genauer zu untersuchen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Jailbreak

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

NINJA

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

HarmBench

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Jailbreak systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Jailbreak

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Jailbreak

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 15 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

LLM

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

10 gemeinsame Signale

Nachbar-Hub

Alignment

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Nachbar-Hub

Sicherheit

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.LG

LLMs können Aktivierungsmonitore umgehen – neue Studie zeigt „neuronale Chamäleons“

16.12.2025 05:00

arXiv – cs.AI

RILKE: LLMs können Wissen dauerhaft und präzise aktualisieren

27.11.2025 05:00

arXiv – cs.LG

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

09.02.2026 05:00

arXiv – cs.AI

KI-Assistenz für Biomechanik: LLMs und Agenten verbessern das Studium

21.11.2025 05:00

arXiv – cs.LG

Konsistenztraining verhindert Lügen und Jailbreaks bei KI-Modellen

03.11.2025 05:00

arXiv – cs.AI

LLM-gestützte Radiologie-Reports: Von grob zu fein – Arbeitslast senken

25.08.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Jailbreak, NINJA konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

Jailbreak

NINJA

HarmBench

LLaMA

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen