Policy Gradient Critics.

Daan Wierstra Jürgen Schmidhuber

Published in: ECML (2007)

Keyphrases

policy gradient
actor critic
reinforcement learning
gradient method
function approximation
optimal control
parametric optimization
model free reinforcement learning
approximation methods
variance reduction
reinforcement learning algorithms
reinforcement learning methods
partially observable markov decision processes
single agent
monte carlo
dynamic programming
multi agent