Examining Average and Discounted Reward Optimality Criteria in Reinforcement Learning.

Vektor Dewanto Marcus Gallagher

Published in: AI (2022)

Keyphrases

discounted reward
optimality criteria
reinforcement learning
markov decision processes
average reward
state and action spaces
policy iteration
optimal policy
hierarchical reinforcement learning
state space
reinforcement learning algorithms
model free
action space
dynamic programming
average cost
long run
temporal difference
finite state
markov decision problems
optimality criterion
partially observable
markov decision process
function approximation
learning algorithm
action selection
decision problems
supervised learning
multi agent
objective function