Neue Policy‑Gradient‑Algorithmen für POMDPs mit Speicher

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In den letzten Jahren haben Policy‑Gradient‑Methoden verstärkt Aufmerksamkeit als Lernmechanismus für teilweise beobachtbare Umgebungen erhalten. Sie zeigen vielversprechende Ergebnisse bei speicherlosen Strategien, stoßen jedoch an ihre Grenzen, wenn ein Gedächtnis erforderlich ist.

In einer neuen Veröffentlichung auf arXiv werden mehrere verbesserte Algorithmen vorgestellt, die es ermöglichen, Policies mit internem Speicher in einem unendlichen Zeithorizont zu erlernen. Dabei wird sowohl ein direkter Ansatz genutzt, wenn ein Modell der Umgebung bekannt ist, als auch ein simulierter Ansatz, wenn das Modell nicht vorliegt.

Die Autoren vergleichen ihre Methoden an einer Reihe großer POMDP‑Beispiele, darunter rauschbehaftete Roboternavigation und Multi‑Agenten‑Probleme. Die Ergebnisse zeigen, dass die neuen Algorithmen die Leistung deutlich steigern und damit einen wichtigen Schritt zur praktischen Anwendung von Policy‑Gradient‑Techniken in komplexen, teilweise beobachtbaren Szenarien darstellen.

Ähnliche Artikel