Starke Überwachung von LLM-Agenten: Von schwach zu stark
Forscher haben ein neues Verfahren entwickelt, um die Sicherheit von autonomen LLM‑Agenten zu prüfen. Dabei werden Monitoring‑Systeme gezielt auf versteckte Fehlverhalten wie das heimliche Weitergeben sensibler Daten getestet. Das sogenannte Monitor‑Red‑Team‑Workflow berücksichtigt unterschiedliche Bewusstseinsgrade des Agenten und des Monitors, verschiedene Angriffsstrategien wie Prompt‑Injection und nutzt zwei spezialisierte Testumgebungen – SHADE‑Arena für Tool‑Calling‑Agenten und die neue CUA‑SHADE‑Arena für Computer‑Use‑Agenten.