An empirical study of policy convergence in Markov decision process value iteration.

Christopher W. Zobel William T. Scherer

Published in: Comput. Oper. Res. (2005)

Keyphrases

markov decision process
optimal policy
markov decision processes
state space
stationary policies
reinforcement learning
policy iteration
infinite horizon
finite horizon
initial state
stochastic shortest path
markov games
dynamic programming
state action
average cost
convergence rate
transition probabilities
reward function
action space
decision processes
finite state
decision problems
mathematical model