Benchmark testet Robustheit agentischer Systeme gegen böswillige Angriffe
Ein neues arXiv‑Paper untersucht die Sicherheit von LLM‑basierten agentischen Systemen, die unter Angriffen gefährliche Handlungen ausführen können. Die Autoren stellen die BAD‑ACTS‑Benchmark vor, die vier unterschiedli…