Neues Verfahren reduziert Schätzfehler in kontinuierlichen Steuerungsalgorithmen
Deterministische Policy‑Gradient‑Algorithmen für die kontinuierliche Steuerung leiden häufig unter Verzerrungen bei der Wertschätzung, die die Leistung stark beeinträchtigen. Während doppelte Kritiker solche Fehler bere…