Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization.

Hua Zheng Wei Xie

Published in: CoRR (2022)

Keyphrases

variance reduction
policy gradient
monte carlo
actor critic
sample size
importance sampling
function approximation
reinforcement learning
optimal control
naive bayes classifier
gradient method
machine learning
text mining