Variance Reduction Techniques for Gradient Estimates in Reinforcement Learning.

Evan Greensmith Peter L. Bartlett Jonathan Baxter

Published in: NIPS (2001)

Keyphrases

variance reduction
gradient estimation
policy gradient
reinforcement learning
importance sampling
confidence intervals
monte carlo
actor critic
sample size
function approximation
quasi monte carlo
reinforcement learning algorithms
state space
markov chain
bias variance decomposition
learning algorithm
text mining
probabilistic model
dynamic programming