Forschung
Neues Netzwerk-Framework für Multi-Armed Bandits mit Reinforcement Learning
Multi-Armed Bandits (MABs) sind ein bewährtes Werkzeug für sequentielle Entscheidungen, das vor allem in der Ressourcenallokation und bei d…
arXiv – cs.LG