Stochastic Variance-Reduced Policy Gradient.

Matteo Papini Damiano Binaghi Giuseppe Canonaco Matteo Pirotta Marcello Restelli

Published in: CoRR (2018)

Keyphrases

policy gradient
model free reinforcement learning
variance reduction
monte carlo
actor critic
parametric optimization
reinforcement learning
function approximation
gradient method
optimal control
single agent
importance sampling
approximation methods
average reward
state transition
reinforcement learning methods
multi agent
machine learning