Neue Methode CHDP optimiert hybride Aktionsräume in Reinforcement Learning
In der Robotik und im Game‑AI wird häufig ein hybrider Aktionsraum eingesetzt, der aus diskreten Entscheidungen und kontinuierlichen Parametern besteht. Das effiziente Modellieren und Optimieren dieser Kombination stell…