AgentLeak: Benchmark deckt massive Datenschutzlücken in Multi-Agent-LLM-Systemen auf
Ein neues Benchmark-Tool namens AgentLeak hat die Schwachstellen von Multi-Agent-LLM-Systemen aufgedeckt, die bisher von herkömmlichen Prüfungen übersehen wurden. Während einzelne Agenten nur ihre Ausgaben auswerten, un…
- Ein neues Benchmark-Tool namens AgentLeak hat die Schwachstellen von Multi-Agent-LLM-Systemen aufgedeckt, die bisher von herkömmlichen Prüfungen übersehen wurden.
- Während einzelne Agenten nur ihre Ausgaben auswerten, untersucht AgentLeak sämtliche internen Kommunikationskanäle, Speicherbereiche und Tool-Argumente, die sensible Dat…
- Das Benchmark umfasst 1.000 realistische Szenarien aus den Bereichen Gesundheitswesen, Finanzen, Recht und Unternehmensdaten.
Ein neues Benchmark-Tool namens AgentLeak hat die Schwachstellen von Multi-Agent-LLM-Systemen aufgedeckt, die bisher von herkömmlichen Prüfungen übersehen wurden. Während einzelne Agenten nur ihre Ausgaben auswerten, untersucht AgentLeak sämtliche internen Kommunikationskanäle, Speicherbereiche und Tool-Argumente, die sensible Daten zwischen Agenten austauschen.
Das Benchmark umfasst 1.000 realistische Szenarien aus den Bereichen Gesundheitswesen, Finanzen, Recht und Unternehmensdaten. Es nutzt eine 32‑Klassige Angriffstaxonomie und einen dreistufigen Erkennungsprozess, um Lecks systematisch zu identifizieren. In einer umfangreichen Testreihe mit 4.979 Spuren wurden fünf führende Modelle – GPT‑4o, GPT‑4o‑mini, Claude 3.5 Sonnet, Mistral Large und Llama 3.3 70B – evaluiert.
Die Ergebnisse zeigen, dass Multi‑Agent-Konfigurationen zwar die Lecks in den Ausgabekanälen (C1) von 43,2 % auf 27,2 % senken, aber gleichzeitig unüberwachte interne Kanäle einführen, die die Gesamtauswirkung auf 68,9 % erhöhen. Inter‑Agent-Nachrichten (C2) verzeichnen dabei ein Leck von 68,8 %, während die Ausgabekanäle nur 27,2 % erreichen. Das bedeutet, dass reine Output‑Audits 41,7 % der Verstöße übersehen.
Claude 3.5 Sonnet, das auf Sicherheit und Alignment ausgelegt ist, erzielt die niedrigsten Leckraten – 3,3 % bei externen und 28,1 % bei internen Kanälen – was darauf hindeutet, dass modellbezogenes Sicherheitstraining auch die interne Kanalabsicherung verbessern kann. Das konsistente Muster C2 > C1 unterstreicht die zentrale Schwachstelle der inter‑Agent-Kommunikation und betont die dringende Notwendigkeit, koordinierte Sicherheitsframeworks für Multi‑Agent-LLM-Systeme zu entwickeln.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.