Neuer Algorithmus optimiert Reinforcement-Learning bei unendlichen Constraints
Ein neuer Ansatz namens Exchange Policy Optimization (EPO) verspricht, die Sicherheit von Reinforcement-Learning-Algorithmen in Anwendungen mit unendlich vielen Einschränkungen zu verbessern. Der Algorithmus arbeitet, indem er iterativ sichere RL-Subprobleme mit endlich vielen Constraints löst und dabei die aktive Constraintmenge dynamisch anpasst.