SVRG for Policy Evaluation with Fewer Gradient Evaluations.

Zilun Peng Ahmed Touati Pascal Vincent Doina Precup

Published in: IJCAI (2020)

Keyphrases

policy evaluation
least squares
temporal difference
reinforcement learning
monte carlo
model free
policy iteration
matrix inversion
variance reduction
policy gradient
function approximation
markov decision processes
semi parametric
partially observable markov decision processes
fixed point
optimal policy
gaussian process
finite state
linear regression
gradient method
markov decision problems
state space