CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL
Offline-Reinforcement‑Learning (RL) nutzt statische Datensätze, um Agenten zu trainieren, ist jedoch anfällig für Backdoor‑Angriffe. Bisherige Angriffsstrategien stoßen bei sicherheitsbeschränkten Algorithmen wie CQL an…