RL-MTJail: KI‑Modelle durch Multi‑Turn‑Jailbreaking gefährden Sicherheit
Ein neues arXiv‑Paper mit der Referenznummer 2512.07761v1 zeigt, wie große Sprachmodelle (LLMs) durch gezielte Mehr‑Runden‑Angriffe ausgenutzt werden können. Die Autoren stellen RL‑MTJail vor, ein Verfahren, das Reinfor…