Denumerable Undiscounted Semi-Markov Decision Processes with Unbounded Rewards.

Awi Federgruen Paul J. Schweitzer Henk C. Tijms

Published in: Math. Oper. Res. (1983)

Keyphrases

semi markov decision processes
markov decision processes
average reward
markov decision chains
average cost
reinforcement learning
policy iteration
finite state
total reward
optimal policy
stochastic games
state space
infinite horizon
reward function
dynamic programming
partially observable
reinforcement learning algorithms
decision processes
markov decision problems
markov decision process
model free
machine learning
computational complexity
action space
long run
markov chain