Neuer Algorithmus optimiert Reinforcement-Learning bei unendlichen Constraints
Ein neuer Ansatz namens Exchange Policy Optimization (EPO) verspricht, die Sicherheit von Reinforcement-Learning-Algorithmen in Anwendungen mit unendlich vielen Einschränkungen zu verbessern. Der Algorithmus arbeitet, i…