Provably Efficient Learning in Partially Observable Contextual Bandit.

Xueping Gong Jiheng Zhang

Published in: CoRR (2023)

Keyphrases

efficient learning
partially observable
contextual bandit
upper confidence bound
state space
decision problems
dynamical systems
reinforcement learning
markov decision processes
partial observations
infinite horizon
news recommendation
partial observability
belief state
planning domains
learning algorithm
pattern languages
membership queries
reward function
data mining