Constrained Semi-Markov decision processes with average rewards.

Eugene A. Feinberg

Published in: Math. Methods Oper. Res. (1994)

Keyphrases

semi markov decision processes
markov decision processes
average reward
discounted reward
average cost
reinforcement learning
optimal policy
finite state
state space
long run
learning algorithm
lower bound
dynamic programming
multiarmed bandit