Stochastic Variance Reduction for Policy Gradient Estimation.

Tianbing Xu Qiang Liu Jian Peng

Published in: CoRR (2017)

Keyphrases

gradient estimation
variance reduction
monte carlo
policy gradient
sample size
importance sampling
optimal policy
actor critic
classification accuracy
markov chain
conditional random fields
confidence intervals