On Average Reward Semi-Markov Decision Processes with a General Multichain Structure.

Jianyong Liu Xiaobo Zhao

Published in: Math. Oper. Res. (2004)

Keyphrases

average reward
semi markov decision processes
markov decision processes
long run
optimal policy
reinforcement learning
optimality criterion
model free
markov chain
policy iteration
special case
discounted reward
state space
dynamic programming
knowledge base
supply chain
data mining
search space
infinite horizon
markov decision process
machine learning