Forschung
Neuer Algorithmus optimiert Reinforcement-Learning bei unendlichen Constraints
Ein neuer Ansatz namens Exchange Policy Optimization (EPO) verspricht, die Sicherheit von Reinforcement-Learning-Algorithmen in Anwendungen…
arXiv – cs.LG