Neues RL-Verfahren kombiniert ω-Regular-Ziele mit Sicherheitsbeschränkungen
Reinforcement Learning (RL) nutzt üblicherweise ein einzelnes, skalare Belohnungssignal, das nur schwer komplexe zeitliche, bedingte oder sicherheitskritische Vorgaben ausdrücken kann. Dadurch entstehen häufig sogenannt…