Automatisierte Mehrfachangriffe auf LLMs: Neue Studie zeigt Schwachstellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Untersuchung wurden Multi‑Turn‑Angriffe auf große Sprachmodelle (LLMs) systematisch analysiert. Diese Angriffe nutzen psychologische Prinzipien wie das „Foot‑in‑the‑Door“-Verfahren, bei dem ein kleiner, harmloser Anfangsbefehl den Weg für einen späteren, deutlich gefährlicheren Befehl ebnet. Solche konversationellen Manipulationen stellen eine dauerhafte Bedrohung für die Sicherheit von LLMs dar.

Der Fortschritt bei der Abwehr dieser Angriffe wurde bisher durch die Notwendigkeit von manuellen, schwer skalierbaren Datensätzen behindert. Das vorgestellte Paper präsentiert einen automatisierten Pipeline-Ansatz, der große, psychologisch fundierte Multi‑Turn‑Jailbreak‑Datensätze erzeugt. Durch die systematische Umsetzung von FITD‑Techniken in reproduzierbare Vorlagen wurden 1.500 Szenarien erstellt, die illegale Aktivitäten und anstößige Inhalte abdecken.

Die Autoren haben sieben Modelle aus drei führenden LLM‑Familien – GPT, Gemini 2.5 Flash und Claude 3 Haiku – sowohl unter Multi‑Turn‑ (mit Gesprächshistorie) als auch Single‑Turn‑ (ohne Historie) Bedingungen getestet. Die Ergebnisse zeigen deutliche Unterschiede in der kontextuellen Robustheit: GPT‑Modelle sind besonders anfällig für die Gesprächshistorie, wobei die Angriffserfolgsrate um bis zu 32 Prozentpunkte steigt. Im Gegensatz dazu demonstriert Gemini 2.5 Flash eine bemerkenswerte Widerstandsfähigkeit und ist nahezu immun gegen diese Angriffe, während Claude 3 Haiku zwar stark, aber nicht vollständig geschützt ist.

Diese Erkenntnisse verdeutlichen, wie unterschiedlich aktuelle Sicherheitsarchitekturen mit konversationellem Kontext umgehen, und unterstreichen die dringende Notwendigkeit, Verteidigungsmechanismen zu entwickeln, die narrativ basierte Manipulationen effektiv abwehren können.

Ähnliche Artikel