LLMs können sich selbst gefährden: Studie zeigt neues Angriffsszenario

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine aktuelle Untersuchung aus dem arXiv-Repository hat ein bislang wenig beachtetes Risiko bei großen Sprachmodellen (LLMs) aufgedeckt: Modelle können ihre eigenen, scheinbar harmlosen Ausgaben als neue Angriffsvektoren nutzen und dadurch Sicherheitsmechanismen umgehen.

Die Forscher führten Experimente mit GPT‑3.5‑turbo, LLaMA3‑8B‑instruct und DeepSeek‑R1‑Distill‑Qwen‑7B durch. Dabei wurde ein sogenanntes „Mitigated Harmful Query“ (MHQ) erzeugt – eine mehrdeutige Anfrage, die zwar die ursprüngliche Absicht bewahrt, aber ihre potenziell schädliche Natur verschleiert. Dieses MHQ wurde anschließend in einer neuen Sitzung des gleichen Modells erneut eingegeben, um zu prüfen, ob ein Jailbreak möglich ist.

Die Ergebnisse waren alarmierend: Unter Zero‑Shot-Bedingungen erreichte die Transformation von MHQ zu einer schädlichen Ausgabe bis zu 52 % und ein Jailbreak bis zu 33 %. Im Few‑Shot-Setting stiegen die Werte auf 65 % Transformation und 41 % Jailbreak. Zusätzlich zeigte die Studie, dass automatisierte Bewertungssysteme die Erfolgsrate um durchschnittlich 52 % überschätzen, was die Notwendigkeit einer menschlichen Kontrolle unterstreicht.

Obwohl die Studie auf einer begrenzten Stichprobe von Anfragen und Prüfern basiert, beweist sie, dass selbst „harmlos“ erscheinende Ausgaben eines Modells als Angriffsmittel dienen können. Die Ergebnisse fordern ein grundlegendes Überdenken der aktuellen Sicherheitsarchitekturen von LLMs und betonen die Notwendigkeit robusterer Prüfmechanismen, die sowohl automatisierte als auch menschliche Bewertungen integrieren.

Ähnliche Artikel