<h1>LLMs im Angesicht von „Adversarial Tales“: Neue Angriffe nutzen Cyberpunk‑Erzählungen</h1> <p>Die Sicherheitsmechanismen großer Sprachmodelle bleiben anfällig für Angriffe, die schädliche Anfragen in kulturell kodierte Strukturen einbetten. In einer neuen Studie wird die Technik „Adversarial Tales“ vorgestellt, ein Jailbreak, der gefährliche Inhalte in Cyberpunk‑Narrationen verpackt und die Modelle dazu bringt, diese als legitime Erzählinterpretationen zu analysieren.</p> <p>Durch die Umwandlung der Auf

arXiv – cs.AI Original
Anzeige