Forschung
Neuer Actor-Critic-Algorithmus reduziert Rauschen bei TD-Fehlern
In der Verstärkungslern‑Forschung ist der temporale Differenzfehler (TD‑Fehler) ein zentrales Werkzeug zur Optimierung von Wert‑ und Politi…
arXiv – cs.LG