Neue Methode vereint Entropie und Minimax für optimale MDP-Abdeckung
In einer kürzlich veröffentlichten Arbeit auf arXiv wird ein neues, einheitliches Konzept für die gezielte Erkundung von Zustands-Aktions-Paaren in belohnungsfreien Markov-Entscheidungsproblemen (MDPs) vorgestellt. Die…