Meta-kognitive RL mit Selbstzweifel: Lernverhalten zuverlässig steuern
In der Welt des Verstärkungslernens konzentrieren sich robuste Methoden meist darauf, unzuverlässige Erfahrungen oder verfälschte Belohnungen zu unterdrücken. Sie besitzen jedoch keine Möglichkeit, die Zuverlässigkeit i…