Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation.

Yunhao Tang Tadashi Kozuno Mark Rowland Rémi Munos Michal Valko

Published in: CoRR (2021)

Keyphrases

policy evaluation
gradient estimators
reinforcement learning
temporal difference
least squares
model free
monte carlo
policy iteration
function approximation
markov decision processes
td learning
variance reduction
state space
evaluation function
semi parametric
optimal policy
statistical inference
machine learning
partially observable markov decision processes
semi supervised
dynamic programming
multi agent
learning algorithm
optimal control
neural network
regression model
importance sampling