Achieving Target State-Action Frequencies in Multichain Average-Reward Markov Decision Processes.

Dmitry Krass O. J. Vrieze

Published in: Math. Oper. Res. (2002)

Keyphrases

average reward
state action
markov decision processes
optimal policy
policy iteration
stochastic games
semi markov decision processes
long run
reinforcement learning
finite state
state space
reinforcement learning algorithms
dynamic programming
total reward
markov decision process
average cost
infinite horizon
partially observable
discounted reward
state and action spaces
model free
action space
decision problems
markov chain
reward function
random walk
objective function