Settling the Bias and Variance of Meta-Gradient Estimation for Meta-Reinforcement Learning.

Bo Liu Xidong Feng Haifeng Zhang Jun Wang Yaodong Yang

Published in: CoRR (2021)

Keyphrases

gradient estimation
variance reduction
reinforcement learning
sample size
monte carlo
dynamic programming
bias variance decomposition
text mining
policy gradient