A value iteration method for undiscounted multichain Markov decision processes.

Published in: ZOR Methods Model. Oper. Res. (1988)

Keyphrases

markov decision processes
dynamic programming
state space
average reward
reinforcement learning
transition matrices
policy iteration
optimal policy
finite state
decision theoretic planning
reinforcement learning algorithms
markov decision process
planning under uncertainty
finite horizon
action sets
stochastic games
optimal solution
decision processes
data mining
partially observable
infinite horizon
learning algorithm
model based reinforcement learning
state and action spaces
factored mdps
continuous state spaces
policy evaluation
least squares