Reducing Estimation Bias via Weighted Delayed Deep Deterministic Policy Gradient.

Qiang He Xinwen Hou

Published in: CoRR (2020)

Keyphrases

policy gradient
variance reduction
parametric optimization
reinforcement learning
actor critic
learning algorithm
optimal control