A successive approximation algorithm for an undiscounted Markov decision process.

Published in: Computing (1976)

Keyphrases

markov decision process
learning algorithm
computational complexity
expectation maximization
dynamic programming
single pass
bayesian networks
optimal solution
search algorithm
higher order
random walk
average reward