Stochastic Variance Reduction for Deep Q-learning.

Wei-Ye Zhao Jian Peng

Published in: AAMAS (2019)

Keyphrases

variance reduction
monte carlo
stochastic approximation
gradient estimation
sample size
importance sampling
reinforcement learning
bias variance decomposition
quasi monte carlo
function approximation
state space
random numbers
markov chain
learning algorithm
confidence intervals
dynamic programming
optimal policy
particle filter
model free
upper bound
policy gradient
lower bound
feature selection