Optimizing Average Reward Using Discounted Rewards.

Published in: COLT/EuroCOLT (2001)

Keyphrases

average reward
markov decision processes
discounted reward
reinforcement learning
total reward
optimal policy
reward function
stochastic games
policy iteration
semi markov decision processes
long run
optimality criterion
state space
finite state
model free
state and action spaces
average cost
dynamic programming
reinforcement learning algorithms
decision makers
hierarchical reinforcement learning
machine learning
partially observable
multi agent
dynamical systems