Total reward criteria for unconstrained/constrained continuous-time Markov decision processes.

Xianping Guo Lanlan Zhang

Published in: J. Syst. Sci. Complex. (2011)

Keyphrases

markov decision processes
total reward
state space
stationary policies
average reward
optimal policy
reinforcement learning
reinforcement learning algorithms
finite state
optimality criterion
policy iteration
dynamic programming
markov chain
optimal control
transition matrices
decision processes
partially observable
markov decision process
action space
decision theoretic planning
infinite horizon
planning under uncertainty
reward function
stochastic processes
average cost
data mining
learning algorithm