A value-iteration scheme for undiscounted multichain Markov renewal programs.

Paul J. Schweitzer

Published in: Z. Oper. Research (1984)

Keyphrases

markov decision processes
average reward
markov chain
optimal policy
state space
policy iteration
infinite horizon
long run
stochastic games
reinforcement learning
markov decision process
finite state
steady state
dynamic programming
average cost
detection scheme
decision processes
conditional independence
partially observable markov decision processes
classification scheme
markov process
data sets
markov decision problems