Conjugate Markov Decision Processes.

Philip S. Thomas Andrew G. Barto

Published in: ICML (2011)

Keyphrases

markov decision processes
reinforcement learning
state space
optimal policy
finite state
model based reinforcement learning
transition matrices
policy iteration
dynamic programming
partially observable
average cost
markov decision process
finite horizon
reinforcement learning algorithms
average reward
reachability analysis
decision theoretic planning
factored mdps
machine learning
semi markov decision processes
planning under uncertainty
risk sensitive
total reward
markov chain
partially observable markov decision processes
infinite horizon