Stochastic Variance-Reduced Policy Gradient.

Matteo Papini Damiano Binaghi Giuseppe Canonaco Matteo Pirotta Marcello Restelli

Published in: ICML (2018)

Keyphrases

policy gradient
model free reinforcement learning
variance reduction
monte carlo
parametric optimization
reinforcement learning
actor critic
optimal control
function approximation
reinforcement learning algorithms
importance sampling
markov chain
approximation methods
gradient method