Neuer Actor-Critic-Algorithmus reduziert Rauschen bei TD-Fehlern
In der Verstärkungslern‑Forschung ist der temporale Differenzfehler (TD‑Fehler) ein zentrales Werkzeug zur Optimierung von Wert‑ und Politikfunktionen. Durch die Bootstrapping‑Natur dieser Fehler entstehen jedoch häufig…