Forschung
Neue Methode vereint Entropie und Minimax für optimale MDP-Abdeckung
In einer kürzlich veröffentlichten Arbeit auf arXiv wird ein neues, einheitliches Konzept für die gezielte Erkundung von Zustands-Aktions-P…
arXiv – cs.LG