Average Optimality in Nonhomogeneous Infinite Horizon Markov Decision Processes.

Allise O. Wachs Irwin E. Schochetman Robert L. Smith

Published in: Math. Oper. Res. (2011)

Keyphrases

average cost
markov decision processes
infinite horizon
optimal policy
finite horizon
finite state
stationary policies
single item
dynamic programming
state space
partially observable
policy iteration
long run
markov decision process
average reward
markov decision problems
reinforcement learning
optimal control
initial state
reinforcement learning algorithms
action space
planning under uncertainty
reward function
multistage
dec pomdps
discounted reward
total cost
inventory level
sufficient conditions
decision making