ACS2HER beschleunigt Lernprozesse in sparsamen Belohnungsumgebungen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsdokument präsentiert ACS2HER, eine innovative Kombination aus dem Anticipatory Classifier System (ACS2) und dem Hindsight Experience Replay (HER). ACS2 ist bekannt dafür, durch latentes Lernen kognitive Karten zu erstellen, doch in Umgebungen mit knappen Belohnungen kann seine Leistung stagnieren.

Die Autoren haben ein spezielles architektonisches Konzept entwickelt, das Hindsight-Lernen auslöst, sobald der Agent sein primäres Ziel nicht erreicht. Dabei werden besuchte Zustände als virtuelle Ziele neu etikettiert, um das Lernsignal zu dichten und die Effizienz zu steigern.

Die Wirksamkeit von ACS2HER wurde an zwei Benchmark-Umgebungen getestet: dem deterministischen Maze 6 und dem stochastischen FrozenLake. Die Ergebnisse zeigen, dass ACS2HER das Wissenserwerb- und Umweltmeisterungsniveau deutlich schneller erreicht als das klassische ACS2.

Dieser Fortschritt geht jedoch mit einem höheren Rechenaufwand und einer signifikanten Zunahme der Klassifikatoranzahl einher. Trotz dieser Kosten liefert die Studie die erste Analyse, wie anticipatorische Mechanismen mit retrospektivem Zielrelabeling in Learning Classifier Systems kombiniert werden können.

Ähnliche Artikel