A probabilistic analysis of bias optimality in unichain Markov decision processes.

Mark E. Lewis Martin L. Puterman

Published in: IEEE Trans. Autom. Control. (2001)

Keyphrases

markov decision processes
average cost
finite state
state space
reinforcement learning
infinite horizon
transition matrices
long run
optimal policy
policy iteration
decision processes
planning under uncertainty
stationary policies
dynamic programming
model checking
least squares
finite horizon
probabilistic planning
decision theoretic planning