Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization.

Maxim Kaledin Alexander Golubev Denis Belomestny

Published in: CoRR (2022)

Keyphrases

variance reduction
policy gradient
policy gradient methods
bias variance decomposition
sample size
monte carlo
gradient estimation
importance sampling
actor critic
confidence intervals
naive bayes classifier
natural actor critic
objective function
lower bound
upper bound
bias variance