Sub-sampling for Multi-armed Bandits.

Akram Baransi Odalric-Ambrym Maillard Shie Mannor

Published in: ECML/PKDD (1) (2014)

Keyphrases

multi armed bandits
multi armed bandit
bandit problems
reinforcement learning
random sampling
sample size
monte carlo
lower bound
upper bound
information theoretic