SEBA: Effiziente Black‑Box‑Angriffe auf visuelles Reinforcement Learning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt des visuellen Reinforcement Learning (RL) wurden enorme Fortschritte bei der Steuerung von Robotern und der Bildverarbeitung erzielt. Gleichzeitig bleibt die Anfälligkeit dieser Systeme gegenüber feindlichen Störungen weitgehend unerforscht. Traditionelle Black‑Box‑Angriffe konzentrieren sich meist auf vektorbasierte oder diskrete Aktionsräume und stoßen bei bildbasierten, kontinuierlichen Steuerungen an ihre Grenzen, weil die Aktionsmenge riesig ist und viele Umgebungsabfragen erforderlich werden.

Die neue Methode SEBA (Sample‑Efficient Black‑Box Attacks) löst dieses Problem, indem sie drei innovative Komponenten kombiniert: ein „Shadow‑Q“-Modell, das die kumulativen Belohnungen unter feindlichen Bedingungen schätzt; ein generatives adversariales Netzwerk, das visuell kaum erkennbare Störungen erzeugt; und ein Weltmodell, das die Dynamik der Umgebung simuliert, um reale Interaktionen zu minimieren. Durch einen zweistufigen, iterativen Trainingsprozess, der abwechselnd das Shadow‑Modell lernt und den Generator verfeinert, erreicht SEBA eine starke Angriffseffektivität bei gleichzeitig hoher Effizienz.

Experimentelle Tests auf den MuJoCo‑ und Atari‑Benchmarks zeigen, dass SEBA die kumulativen Belohnungen der RL‑Agenten deutlich senkt, die Bildqualität der Angriffe hoch hält und die Anzahl der notwendigen Umgebungsabfragen im Vergleich zu bisherigen Black‑Box‑ und White‑Box‑Methoden drastisch reduziert. Diese Ergebnisse markieren einen wichtigen Schritt zur besseren Sicherheit von visuellen Reinforcement‑Learning‑Systemen.

Ähnliche Artikel