Analysis of Thompson Sampling for Partially Observable Contextual Multi-Armed Bandits.

Hongju Park Mohamad Kazem Shirani Faradonbeh

Published in: CoRR (2021)

Keyphrases

partially observable
multi armed bandits
reinforcement learning
machine learning
decision making
decision problems