Neuer Algorithmus garantiert replizierbare RL-Politiken
Reinforcement Learning (RL) steht seit langem vor dem Problem der Replizierbarkeit: kleine Änderungen in den Trainingsbedingungen führen häufig zu stark unterschiedlichen Ergebnissen. Um dieses Problem systematisch anzu…