Learning Unknown Markov Decision Processes: A Thompson Sampling Approach.

Yi Ouyang Mukul Gagrani Ashutosh Nayyar Rahul Jain

Published in: NIPS (2017)

Keyphrases

markov decision processes
reinforcement learning
state space
learning algorithm
transition matrices
model based reinforcement learning
partially observable
optimal policy
real time dynamic programming
finite state
learning tasks
dynamic programming
policy iteration
finite horizon
planning under uncertainty
factored mdps
supervised learning