Predictive representations for policy gradient in POMDPs.

Abdeslam Boularias Brahim Chaib-draa

Published in: ICML (2009)

Keyphrases

policy gradient
reinforcement learning
actor critic
gradient ascent
function approximation
policy gradient methods
partially observable markov decision processes
policy search
gradient method
variance reduction
reinforcement learning algorithms
model free reinforcement learning
optimal control
approximation methods
temporal difference
markov decision processes
single agent
markov chain
state space
dynamic programming
neural network