CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Offline-Reinforcement‑Learning (RL) nutzt statische Datensätze, um Agenten zu trainieren, ist jedoch anfällig für Backdoor‑Angriffe. Bisherige Angriffsstrategien stoßen bei sicherheitsbeschränkten Algorithmen wie CQL an ihre Grenzen, weil sie auf ineffiziente Zufalls‑Poisoning‑Methoden und leicht erkennbaren Out‑of‑Distribution‑Triggern (OOD) setzen.

Die neue Methode CS‑GBA (Critical Sample‑based Gradient‑guided Backdoor Attack) löst dieses Problem, indem sie gezielt die wichtigsten Übergänge auswählt. Durch die Analyse von hohen Temporal‑Difference‑(TD)‑Fehlern identifiziert das System kritische Samples und konzentriert das begrenzte Angriffsbudget auf diese einflussreichsten Transaktionen.

Um OOD‑Erkennung zu umgehen, nutzt CS‑GBA einen Correlation‑Breaking‑Trigger, der die physikalische gegenseitige Ausschließlichkeit von Zustandsmerkmalen (z. B. 95‑Perzentil‑Grenzen) ausnutzt, sodass der Trigger statistisch unauffällig bleibt.

Anstelle der üblichen Label‑Inversion generiert die Technik einen Gradient‑Guided Action‑Generation‑Mechanismus. Dieser sucht innerhalb des Daten‑Manifolds nach den schlechtesten Aktionen, indem er den Gradienten des Ziel‑Q‑Netzwerks nutzt.

Experimentelle Tests auf D4RL‑Benchmarks zeigen, dass CS‑GBA die bisherigen Spitzenreiter deutlich übertrifft. Mit nur 5 % Poisioning‑Budget erreicht die Methode hohe Erfolgsraten gegen sicherheitsbeschränkte Algorithmen und hält gleichzeitig die Leistung des Agenten in sauberen Umgebungen auf einem hohen Niveau.

Ähnliche Artikel