BeSafe-Bench enthüllt Sicherheitsrisiken von Agenten in realen Umgebungen
Die rasante Entwicklung großer multimodaler Modelle (LMMs) hat es Agenten ermöglicht, komplexe digitale und physische Aufgaben zu bewältigen. Gleichzeitig birgt ihre autonome Entscheidungsfindung erhebliche unbeabsichti…