SAM steigert Robustheit von Offline-RL bei Datenkorruption
Offline-Reinforcement-Learning (RL) ist in der Praxis stark anfällig für Datenkorruption. Selbst die bislang robustesten Algorithmen scheitern, wenn Beobachtungen oder Mischungen von fehlerhaften Daten betroffen sind. D…