Forschung
Neues RL-Verfahren kombiniert ω-Regular-Ziele mit Sicherheitsbeschränkungen
Reinforcement Learning (RL) nutzt üblicherweise ein einzelnes, skalare Belohnungssignal, das nur schwer komplexe zeitliche, bedingte oder s…
arXiv – cs.AI