An Average-Reward Reinforcement Learning Algorithm for Computing Bias-Optimal Policies.

Sridhar Mahadevan

Published in: AAAI/IAAI, Vol. 1 (1996)

Keyphrases

average reward
optimal policy
markov decision processes
long run
average reward reinforcement learning
semi markov decision processes
reinforcement learning
discounted reward
state space
policy iteration
decision problems
dynamic programming
total reward
optimality criterion
multistage
sufficient conditions
finite horizon
model free
sample path
infinite horizon
markov chain
finite state
markov decision process
partially observable markov decision processes
state and action spaces
average cost
hierarchical reinforcement learning
discount factor
machine learning