Forschung
Neuer Algorithmus erzielt polynomialen Regret bei adversarialen linearen Bandits
Ein neuer Ansatz für lineare Kontextbandits mit adversarialen Verlusten und stochastischen Aktionsmengen hat die Forschung vor einen großen…
arXiv – cs.LG