Forschung
Deep Q-Learning: Q‑Wert‑Updates durch Vorhersage von Nachfolgestates optimiert
Deep‑Q‑Netzwerke (DQNs) schätzen zukünftige Belohnungen, indem sie aus Transitions im Replay‑Buffer lernen. Dabei basieren die Ziel‑Updates…
arXiv – cs.LG