MADRA: Mehragenten‑Debatte erhöht Sicherheit von eingebetteten KI‑Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Studie präsentiert das Team das MADRA‑Framework, das die Sicherheit von eingebetteten KI‑Agenten bei der Aufgabenplanung ohne zusätzliche Trainingskosten verbessert. Durch die Nutzung mehrerer LLM‑basierter Agenten führen sie eine Debatte über die Sicherheit einer gegebenen Anweisung, wobei ein kritischer Evaluator die Antworten nach logischer Plausibilität, Risikoeinschätzung, Evidenzqualität und Klarheit bewertet.

Die iterative Diskussion und das Konsensus‑Voting reduzieren signifikant falsche Ablehnungen, während die Sensitivität gegenüber gefährlichen Aufgaben erhalten bleibt. Ergänzend dazu wird ein hierarchisches kognitives Kollaborations‑Planungsmodell vorgestellt, das Sicherheits-, Gedächtnis‑, Planungs‑ und Selbst‑Evolution‑Mechanismen integriert, um die Erfolgsrate bei Aufgaben kontinuierlich zu steigern.

Zur Validierung wird das neue SafeAware‑VH‑Datensatz mit 800 annotierten Anweisungen in VirtualHome bereitgestellt. Umfangreiche Experimente auf AI2‑THOR und VirtualHome zeigen, dass MADRA über 90 % der unsicheren Aufgaben ablehnt, dabei aber die Ablehnung sicherer Aufgaben gering hält und bestehende Methoden in Sicherheit und Ausführungseffizienz übertrifft.

Ähnliche Artikel