DDPG verbessert: Separates Replay für Actor und Critic steigert Leistung

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der kontinuierlichen Steuerungsaufgaben hat ein neues Verfahren namens Decoupled Prioritized Experience Replay (DPER) die Aufmerksamkeit von Forschern auf sich gezogen. DDPG‑basierte Algorithmen nutzen üblicherweise ein gemeinsames Replay‑Buffer, um sowohl den Actor als auch den Critic zu trainieren. Doch die Lernziele und Update‑Dynamiken dieser beiden Netzwerke unterscheiden sich erheblich, sodass die gleichmäßige Nutzung derselben Übergänge nicht optimal ist.

DPER löst dieses Problem, indem es die Stichprobe der Übergänge für Actor und Critic vollständig voneinander trennt. Durch unabhängiges, priorisiertes Sampling erhält jeder Teil des Netzwerks gezielte Lernsignale, die besser zu seiner jeweiligen Aufgabe passen. Dieses Konzept lässt sich nahtlos in jede off‑policy Deep‑Reinforcement‑Learning‑Architektur einbauen, die in kontinuierlichen Steuerungsdomänen arbeitet.

Die Autoren kombinierten DPER mit dem modernen Twin‑Delayed‑DDPG (TD3) und testeten die Leistung an einer Reihe von MuJoCo‑Aufgaben aus der OpenAI‑Gym‑Suite. Die Ergebnisse zeigen, dass DPER sowohl die Lernrate als auch die Endleistung deutlich übertrifft – im Vergleich zu herkömmlichem Replay und dem klassischen Prioritized Experience Replay. Die Verbesserungen sind besonders in komplexen, dynamischen Szenarien spürbar.

Zusammenfassend demonstriert die Studie, dass die Trennung des Replay‑Buffers für Actor und Critic die Trainingsdynamik optimiert und die Qualität der erlernten Politik steigert. DPER bietet damit einen generellen Ansatz, um Deep‑Deterministic‑Policy‑Gradient‑Algorithmen in einer breiten Palette von kontinuierlichen Steuerungsaufgaben zu verbessern.

Ähnliche Artikel