AutoGuard: KI-Schutzschalter stoppt bösartige Web-LLM-Agenten sofort

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer Zeit, in der webbasierte Large Language Model (LLM)-Agenten immer komplexere Aufgaben eigenständig ausführen, wächst die Gefahr von Missbrauch. Sie können persönliche Daten ohne Erlaubnis sammeln, polarisierende Inhalte erzeugen oder sogar automatisierte Webangriffe starten. Um diesen Risiken entgegenzuwirken, hat ein internationales Forschungsteam einen neuen Ansatz namens AutoGuard entwickelt, der bösartige LLM-Agenten sofort abstellen kann.

AutoGuard arbeitet, indem es defensive Prompts generiert, die in den DOM einer Webseite eingebettet werden. Diese Prompts sind für menschliche Besucher unsichtbar, werden aber von den Crawling-Prozessen der Agenten erkannt. Sobald ein Agent die Prompts liest, aktiviert er intern seine Sicherheitsmechanismen und unterbricht damit jegliche schädliche Aktivität. Der Trick liegt also in der cleveren Platzierung von Triggern, die nur für die KI sichtbar sind.

Um die Wirksamkeit zu testen, wurde ein Benchmark mit drei typischen Bedrohungsszenarien erstellt: das unbefugte Sammeln von personenbezogenen Daten, die Verbreitung sozialer Spaltung und das Ausführen von Web-Hacking-Aktionen. Die Ergebnisse sind beeindruckend: AutoGuard erreicht über 80 % Erfolgsrate bei der Abwehr von Agenten wie GPT‑4o, Claude‑3 und Llama3.3‑70B‑Instruct. Bei moderneren Modellen wie GPT‑5, GPT‑4.1 und Gemini‑2.5‑Flash liegt die Erfolgsrate sogar bei rund 90 %.

Diese Forschung zeigt, dass ein universeller Schutzmechanismus gegen bösartige LLM-Agenten möglich ist und sich robust über verschiedene Modelle und Angriffsarten hinweg bewährt. AutoGuard stellt damit einen wichtigen Schritt in Richtung sicherer KI-Anwendungen im Web dar.

Ähnliche Artikel