Neuer Algorithmus erzielt polynomialen Regret bei adversarialen linearen Bandits
Ein neuer Ansatz für lineare Kontextbandits mit adversarialen Verlusten und stochastischen Aktionsmengen hat die Forschung vor einen großen Schritt gebracht. Der Algorithmus reduziert das Problem auf misspezifizierungsr…