Smart exploration in reinforcement learning using absolute temporal difference errors.

Clement Gehring Doina Precup

Published in: AAMAS (2013)

Keyphrases

temporal difference
reinforcement learning
action selection
function approximation
td learning
model free
reinforcement learning algorithms
temporal difference learning
evaluation function
policy evaluation
function approximators
step size
monte carlo
actor critic
temporal difference methods
learning algorithm
policy iteration
markov decision processes
decision making
transfer learning
optimal control
action space
machine learning
supervised learning
dynamic programming
genetic algorithm