Meta-kognitive RL mit Selbstzweifel: Lernverhalten zuverlässig steuern
In der Welt des Verstärkungslernens konzentrieren sich robuste Methoden meist darauf, unzuverlässige Erfahrungen oder verfälschte Belohnungen zu unterdrücken. Sie besitzen jedoch keine Möglichkeit, die Zuverlässigkeit ihres eigenen Lernprozesses zu beurteilen. Das führt häufig dazu, dass sie entweder zu stark auf Rauschen reagieren und dadurch übermäßig konservativ werden, oder im schlimmsten Fall scheitern, wenn Unsicherheit anhäuft.