Neues Verfahren reduziert Schätzfehler in kontinuierlichen Steuerungsalgorithmen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Deterministische Policy‑Gradient‑Algorithmen für die kontinuierliche Steuerung leiden häufig unter Verzerrungen bei der Wertschätzung, die die Leistung stark beeinträchtigen. Während doppelte Kritiker solche Fehler bereits mindern, bleibt das explorative Potenzial von doppelten Akteuren bislang wenig erforscht.

Aufbauend auf der temporaldifferenzbasierten Regularisierung (TDDR) wird hier ein Double‑Actor‑Critic‑Framework vorgestellt, das flexible Bias‑Kontrolle und verbesserte Repräsentationslernen kombiniert. Durch drei konvexe Kombinationsstrategien – symmetrisch und asymmetrisch – werden pessimistische Schätzungen ausgeglichen, um Überbewertung zu reduzieren, während doppelte Akteure optimistische Exploration fördern und Unterbewertung abmildern.

Ein einzelner Hyperparameter steuert das gesamte Verfahren, sodass Anwender den Bias je nach Umgebung feinjustieren können. Zusätzlich werden erweiterte Zustands‑ und Aktionsrepräsentationen in die Netzwerke des Akteurs und Kritikers integriert, was die Lernfähigkeit weiter steigert.

Umfangreiche Experimente zeigen, dass das neue Verfahren konsequent die bisherigen Benchmarks übertrifft. Es demonstriert, dass sowohl Über- als auch Unterbewertung je nach Kontext unterschiedlich genutzt werden können, und unterstreicht die Bedeutung einer anpassbaren Bias‑Regulierung für optimale Leistung.

Ähnliche Artikel