Determination of the minimax risk for Bernoulli multi-armed bandit.

Alexander V. Kolnogorov

Published in: ALCOSP (2010)

Keyphrases

multi armed bandit
multi armed bandits
reinforcement learning
decision making
decentralized decision making
learning algorithm
worst case