Neue Methode CHDP optimiert hybride Aktionsräume in Reinforcement Learning
In der Robotik und im Game‑AI wird häufig ein hybrider Aktionsraum eingesetzt, der aus diskreten Entscheidungen und kontinuierlichen Parametern besteht. Das effiziente Modellieren und Optimieren dieser Kombination stellt jedoch ein zentrales Problem dar, weil herkömmliche Politiken oft nicht genügend Ausdruckskraft besitzen und in hochdimensionalen Räumen schlecht skalieren.