Auto‑Exploration in Reinforcement Learning: Parameter‑freie Algorithmen mit O(ε⁻²) Effizienz

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsdokument aus dem arXiv-Repository präsentiert ein revolutionäres Verfahren für Online‑Reinforcement‑Learning, das das klassische Exploration‑Exploitation‑Dilemma ohne jegliche Parameterabhängigkeit löst. Durch die automatische Erkundung von Zustands‑ und Aktionsräumen erreichen die beiden vorgestellten Varianten – eine für das tabellarische Setting und eine für lineare Funktionsapproximation – eine Stichprobenkomplexität von O(ε⁻²), die unabhängig von zuvor benötigten, oft sehr großen, algorithmenspezifischen Parametern ist.

Die Autoren nutzen mehrere neuartige algorithmische Ideen: einen dynamischen Mischungszeitraum, eine diskontierte Zustandsverteilung für die Stichprobenziehung, einen robusten Gradienten­schätzer sowie eine moderne Vorteil‑Gap‑Funktion, die die Konvergenz garantiert. Diese Komponenten ermöglichen es, die unbekannten Parameter nicht direkt zu schätzen, sondern das Lernproblem in einer parameter‑freien Weise zu lösen. Das Ergebnis ist ein einfach zu implementierendes Verfahren, das sowohl in klassischen tabellarischen als auch in modernen linearen Approximationen hervorragende Ergebnisse erzielt.

Ähnliche Artikel