Forschung
Automatisches Reward Shaping für robuste Kontrolle trotz Störfaktoren
In der Verstärkungslern‑Forschung wird Reward Shaping häufig eingesetzt, um die Trainingsgeschwindigkeit von Agenten zu erhöhen. Für komple…
arXiv – cs.LG