A New Optimality Criterion for Nonhomogeneous Markov Decision Processes.

Wallace J. Hopp James C. Bean Robert L. Smith

Published in: Oper. Res. (1987)

Keyphrases

optimality criterion
markov decision processes
average reward
optimal policy
state space
policy iteration
reinforcement learning
risk sensitive
finite state
dynamic programming
transition matrices
average cost
decision theoretic planning
partially observable
total reward
reinforcement learning algorithms
infinite horizon
factored mdps
state and action spaces
discounted reward
action space
long run
reward function
function approximation
evaluation function
markov decision process
action sets
multistage