Trajectory-wise Control Variates for Variance Reduction in Policy Gradient Methods.

Ching-An Cheng Xinyan Yan Byron Boots

Published in: CoRL (2019)

Keyphrases

variance reduction
policy gradient
policy gradient methods
control system
sample size
pairwise
control strategy
optimal control
natural actor critic
reinforcement learning
monte carlo
control strategies