Neue Metrik misst Zustandsähnlichkeit zwischen Markov-Entscheidungsprozessen
In einer wegweisenden theoretischen Arbeit wurde die Generalisierte Bisimulation-Metrik (GBSM) vorgestellt, die erstmals Zustände aus beliebigen Markov-Entscheidungsprozessen (MDPs) systematisch vergleicht. Durch die Beweisführung von Symmetrie, Dreiecksungleichung zwischen MDPs und einer Distanzgrenze für identische Räume liefert die GBSM ein solides mathematisches Fundament, das bisher fehlte.
Die Autoren nutzen diese Eigenschaften, um die Übertragbarkeit von Policies, die Aggregation von Zuständen und die schätzungsbasierte Analyse über mehrere MDPs hinweg zu untersuchen. Dabei werden neue, deutlich engere obere Schranken für die Performance und die Fehlerentwicklung als bei der klassischen Bisimulation-Metrik (BSM) erzielt.
Ein weiterer Meilenstein ist die Ableitung einer geschlossenen Formel für die Stichprobenspezifikationen, die die bisherige asymptotische Analyse übertrifft. Praktische Simulationen bestätigen die theoretischen Vorhersagen und zeigen, dass die GBSM besonders in Szenarien mit mehreren MDPs die Effektivität von Transferlernen und Zustandsrepräsentationen deutlich steigert.