Observe Before Play: Multi-armed Bandit with Pre-observations.

Jinhang Zuo Xiaoxi Zhang Carlee Joe-Wong

Published in: CoRR (2019)

Keyphrases

multi armed bandit
multi armed bandits
reinforcement learning
decentralized decision making