MCP-Guard: Schutzrahmen für sichere LLM-Tool-Interaktionen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Kombination großer Sprachmodelle (LLMs) mit externen Werkzeugen über das Model Context Protocol (MCP) eröffnet kritische Sicherheitslücken wie Prompt‑Injection, Datenexfiltration und weitere Angriffe. Um diesen Gefahren entgegenzuwirken, wurde MCP‑Guard entwickelt – ein mehrschichtiges Verteidigungsframework, das speziell für LLM‑Tool‑Interaktionen konzipiert ist.

MCP‑Guard nutzt einen dreistufigen Erkennungs‑Pipeline: Zunächst erfolgt ein leichtgewichtiger statischer Scan, der offensichtliche Bedrohungen identifiziert. Darauf folgt ein tiefes neuronales Detektionsmodell, das semantische Angriffe erkennt. Das feinabgestimmte E5‑basierte Modell erreicht dabei eine Genauigkeit von 96,01 % bei der Erkennung von adversarialen Prompt‑Vorgaben. Abschließend aggregiert ein schlanker LLM‑Arbitrator die Signale der vorherigen Stufen und trifft die endgültige Entscheidung, wobei die Fehlalarme minimiert werden.

Zur Förderung von Forschung und Evaluierung wurde zusätzlich MCP‑AttackBench eingeführt, ein umfassendes Benchmark‑Set mit über 70.000 Beispielen. Die Daten stammen aus öffentlichen Quellen und wurden mit GPT‑4 erweitert, um vielfältige, realistische Angriffsvektoren im MCP‑Format zu simulieren. Dieses Set bildet die Grundlage für zukünftige Studien zur Absicherung von LLM‑Tool‑Ökosystemen.

Ähnliche Artikel