Do It for HER: Belohnungsspezifikation in RL mit First-Order Temporaler Logik
In einer wegweisenden Veröffentlichung stellen die Autoren ein neues Framework vor, das die logische Spezifikation von nicht-Markovianen Belohnungen in Markov Decision Processes (MDPs) mit riesigen Zustandsräumen ermögl…