Multi-armed bandit with sub-exponential rewards.

Huiwen Jia Cong Shi Siqian Shen

Published in: Oper. Res. Lett. (2021)

Keyphrases

multi armed bandits
multi armed bandit
reinforcement learning
bandit problems
decentralized decision making
lower bound
learning algorithm