SuS: Strategieorientierte Überraschung steigert intrinsische Exploration im RL

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Veröffentlichung auf arXiv wird das Konzept „Strategy-aware Surprise“ (SuS) vorgestellt, ein innovatives Framework zur intrinsischen Motivation in Reinforcement‑Learning‑Systemen. SuS nutzt die Diskrepanz zwischen Vorhersagen vor und nach einer Handlung als Signal für Neuheit, anstatt sich ausschließlich auf die Fehler bei der Zustandsvorhersage zu stützen.

Das Verfahren kombiniert zwei ergänzende Komponenten: Strategy Stability (SS) bewertet die Konsistenz der Verhaltensstrategie über mehrere Zeitschritte hinweg, während Strategy Surprise (SuS) unerwartete Ergebnisse im Vergleich zur aktuellen Strategie des Agenten erfasst. Durch ein lernbasiertes Gewichtungsverhältnis werden beide Signale zu einer Gesamtbelohnung zusammengeführt.

Die Autoren testen SuS an mathematischen Problemlösungsaufgaben mit großen Sprachmodellen und berichten über signifikante Verbesserungen in Genauigkeit und Lösungsvielfalt. Im Vergleich zu herkömmlichen Methoden erzielt SuS eine Steigerung von 17,4 % bei Pass@1 und 26,4 % bei Pass@5, wobei die Strategievielfalt während des Trainings konstant hoch bleibt. Ablationsstudien zeigen, dass das Entfernen einer der beiden Komponenten zu mindestens 10 % Leistungsabfall führt, was die synergetische Wirkung des Ansatzes bestätigt.

Ähnliche Artikel