The n th-Order Bias Optimality for Multichain Markov Decision Processes.

Xi-Ren Cao Junyu Zhang

Published in: IEEE Trans. Autom. Control. (2008)

Keyphrases

markov decision processes
average reward
optimal policy
finite state
state space
average cost
dynamic programming
transition matrices
reachability analysis
policy iteration
planning under uncertainty
decision theoretic planning
reinforcement learning algorithms
long run
factored mdps
semi markov decision processes
reinforcement learning
infinite horizon
action sets
finite horizon
decision processes
probabilistic planning
decision diagrams
model based reinforcement learning