Thompson Sampling in Partially Observable Contextual Bandits.

Hongju Park Mohamad Kazem Shirani Faradonbeh

Published in: CoRR (2024)

Keyphrases

partially observable
reinforcement learning
markov decision processes
state space
decision problems
dynamical systems
multi armed bandit
partial observability
infinite horizon
markov decision problems
action models
partial observations
belief state
partially observable domains
reward function
partially observable environments
long run
machine learning
policy iteration
belief space
planning domains
dynamic systems
heuristic search
np hard