Inferring the Optimal Policy using Markov Chain Monte Carlo.

Brandon Trabucco Albert Qu Simon Li Ganeshkumar Ashokavardhanan

Published in: CoRR (2019)

Keyphrases

optimal policy
markov decision processes
dynamic programming
state space
reinforcement learning
decision problems
finite state
long run
infinite horizon
state dependent
finite horizon
multistage
bayesian reinforcement learning
markov decision process
average reward
policy iteration
average cost
control policies
sufficient conditions
asymptotically optimal
lost sales
partially observable markov decision processes