Forschung
DDPG verbessert: Separates Replay für Actor und Critic steigert Leistung
In der Welt der kontinuierlichen Steuerungsaufgaben hat ein neues Verfahren namens Decoupled Prioritized Experience Replay (DPER) die Aufme…
arXiv – cs.LG