Deep Q-Learning: Q‑Wert‑Updates durch Vorhersage von Nachfolgestates optimiert
Deep‑Q‑Netzwerke (DQNs) schätzen zukünftige Belohnungen, indem sie aus Transitions im Replay‑Buffer lernen. Dabei basieren die Ziel‑Updates häufig auf Zuständen, die durch Aktionen einer früheren, oft suboptimalen Polic…