Batched Multi-Armed Bandits with Optimal Regret.

Hossein Esfandiari Amin Karbasi Abbas Mehrabian Vahab S. Mirrokni

Published in: CoRR (2019)

Keyphrases

multi armed bandits
multi armed bandit
bandit problems
worst case
machine learning
lower bound
online learning
optimal solution
special case
dynamic programming
mutual information
markov chain
minimax regret
multi armed bandit problems