RL-MTJail: KI‑Modelle durch Multi‑Turn‑Jailbreaking gefährden Sicherheit
Ein neues arXiv‑Paper mit der Referenznummer 2512.07761v1 zeigt, wie große Sprachmodelle (LLMs) durch gezielte Mehr‑Runden‑Angriffe ausgenutzt werden können. Die Autoren stellen RL‑MTJail vor, ein Verfahren, das Reinforcement‑Learning nutzt, um aus einer Black‑Box‑Umgebung schädliche Inhalte zu erzeugen.
Traditionelle Jailbreak‑Methoden optimieren meist nur einen einzelnen Prompt‑Output‑Schritt, was die Entwicklung langfristiger Angriffsstrategien erschwert. RL‑MTJail formuliert das Problem als Multi‑Turn‑Reinforcement‑Learning‑Aufgabe und bewertet die Schädlichkeit des Endoutputs als primären Belohnungswert. Um die sparsamen Rückmeldungen zu kompensieren, werden zwei heuristische Prozess‑Belohnungen eingeführt: Erstens wird die Schädlichkeit der Zwischenergebnisse kontrolliert, damit das Zielmodell nicht sofort abgelehnt wird; zweitens bleibt die semantische Relevanz erhalten, um Abweichungen von der eigentlichen Angriffslinie zu verhindern.
Die Experimente auf mehreren Benchmark‑Datensätzen zeigen, dass die Methode die Erfolgsrate von Jailbreak‑Angriffen signifikant steigert – und zwar über verschiedene LLM‑Architekturen hinweg. Damit wird deutlich, dass die Sicherheit von KI‑Systemen noch stärker von robusten Prüfungen gegen Multi‑Turn‑Angriffe abhängt.
Der Quellcode ist öffentlich auf GitHub verfügbar (https://github.com/xxiqiao/RL-MTJail). Bitte beachten Sie, dass das Papier Beispiele schädlicher Inhalte enthält und daher mit Vorsicht gelesen werden sollte.