Neues Verfahren reduziert Schätzfehler in kontinuierlichen Steuerungsalgorithmen
Deterministische Policy‑Gradient‑Algorithmen für die kontinuierliche Steuerung leiden häufig unter Verzerrungen bei der Wertschätzung, die die Leistung stark beeinträchtigen. Während doppelte Kritiker solche Fehler bereits mindern, bleibt das explorative Potenzial von doppelten Akteuren bislang wenig erforscht.