Neue Architektur CCA schützt KI-Agenten zuverlässig vor Indirect Prompt Injection
Autonome Large‑Language‑Model‑Agenten sind zunehmend anfällig für Indirect Prompt Injection (IPI) – Angriffe, die über manipulierte externe Informationsquellen die Agentensteuerung übernehmen. Durch das Ausnutzen von Sicherheits‑Funktionskompromissen führen solche Angriffe zu unerlaubten Tool‑Aufrufen und ablenken die Agenten von ihren ursprünglichen Zielen.
Die gegenwärtigen Verteidigungsmechanismen sind fragmentiert und bieten keine vollständige Integritätssicherung über den gesamten Ausführungs‑Pipeline. Das Ergebnis sind unvermeidliche Kompromisse zwischen Sicherheit, Funktionalität und Effizienz, die die Zuverlässigkeit von KI‑Agenten stark beeinträchtigen.
Die Cognitive Control Architecture (CCA) basiert auf der Erkenntnis, dass jede IPI‑Attacke letztlich als erkennbare Abweichung im Aktionsverlauf sichtbar wird – ein Muster, das von einem legitimen Plan abweicht. Diese Einsicht ermöglicht eine systemweite, proaktive Überwachung.
CCA kombiniert zwei synergistische Säulen: Erstens eine proaktive Kontrolle von Kontroll‑ und Datenflussintegrität mittels eines vorgenerierten „Intent Graph“, und zweitens einen innovativen „Tiered Adjudicator“, der bei Abweichungen tiefgreifendes, mehrdimensionales Scoring einsetzt, um komplexe Angriffsbedingungen zu neutralisieren.
Durch diese duale Verteidigung bietet CCA eine umfassende, lebenszyklusweite kognitive Aufsicht, die KI‑Agenten robust gegen IPI‑Angriffe schützt und damit die sichere, zielgerichtete Nutzung von autonomen Sprachmodellen fördert.