Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Jailbreak”
Forschung

<h1>Indische KI-Modelle: Neuer Benchmark prüft Sicherheitsresistenz in 12 Sprachen</h1> <p>Die Sicherheit großer Sprachmodelle wird bislang fast ausschließlich in Englisch getestet – ein Ansatz, der die Schwachstellen in anderen Sprachen vernachlässigt. Mit dem neuen Benchmark <strong>Indic Jailbreak Robustness (IJR)</strong> wird das geändert. IJR bietet einen „judge‑free“ Test, der 45.216 Angriffs‑Prompts in zwölf indischen und südasiatischen Sprachen abdeckt und sowohl einen JSON‑Track mit vertraglich fe

arXiv – cs.AI
Forschung

<p>Alignment Curse: Text‑Jailbreaks übertragen sich auf Audio in Omni‑Modellen</p> <p>In den letzten Monaten haben end‑to‑end trainierte Omni‑Modelle die multimodale Verständniskapazität deutlich gesteigert. Gleichzeitig hat sich das Sicherheits‑Red‑Teaming von rein textbasierten Angriffen auf audio‑basierte Jailbreaks ausgeweitet. Doch die Brücke zwischen Text‑ und Audio‑Jailbreaks blieb bislang wenig erforscht.</p> <p>Die vorliegende Arbeit untersucht, wie sich Jailbreak‑Methoden von Text auf Audio übertr

arXiv – cs.LG
Forschung

<h1>LLMs gegen Jailbreak-Angriffe schützen: Interne Sicherheitssignale nutzen</h1> <p>Large Language Models (LLMs) haben in den letzten Jahren enorme Fortschritte bei der Verarbeitung natürlicher Sprache erzielt und werden zunehmend in realen Anwendungen eingesetzt. Trotz umfangreicher Sicherheitsanpassungen bleiben sie jedoch anfällig für sogenannte Jailbreak-Angriffe, bei denen Angreifer versuchen, die Modelle dazu zu bringen, unerwünschte Inhalte zu generieren.</p> <p>In einer neuen Studie wurde ein bisl

arXiv – cs.AI
Forschung

<h1>LLMs im Angesicht von „Adversarial Tales“: Neue Angriffe nutzen Cyberpunk‑Erzählungen</h1> <p>Die Sicherheitsmechanismen großer Sprachmodelle bleiben anfällig für Angriffe, die schädliche Anfragen in kulturell kodierte Strukturen einbetten. In einer neuen Studie wird die Technik „Adversarial Tales“ vorgestellt, ein Jailbreak, der gefährliche Inhalte in Cyberpunk‑Narrationen verpackt und die Modelle dazu bringt, diese als legitime Erzählinterpretationen zu analysieren.</p> <p>Durch die Umwandlung der Auf

arXiv – cs.AI