The Local Optimality of Reinforcement Learning by Value Gradients, and its Relationship to Policy Gradient Learning

Michael Fairbank Eduardo Alonso

Published in: CoRR (2011)

Keyphrases

reinforcement learning
policy gradient
actor critic
learning process
learning algorithm
reinforcement learning algorithms
policy search
function approximation
model free reinforcement learning
policy gradient methods
state action
function approximators
action selection
supervised learning
learning problems
learning tasks
temporal difference
optimal control
temporal difference learning
reinforcement learning methods
sample size
optimal policy
search space
machine learning