On the Optimality of Perturbations in Stochastic and Adversarial Multi-armed Bandit Problems.

Baekjin Kim Ambuj Tewari

Published in: NeurIPS (2019)

Keyphrases

multi armed bandit problems
stochastic optimization
optimal solution
monte carlo
bandit problems
multi agent
multi objective
stochastic programming
stochastic nature
data sets
artificial neural networks
dynamic programming
optimal control
stochastic model
average cost
learning automata