Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation.

Yunhao Tang Tadashi Kozuno Mark Rowland Rémi Munos Michal Valko

Published in: NeurIPS (2021)

Keyphrases

policy evaluation
gradient estimators
reinforcement learning
temporal difference
least squares
model free
function approximation
monte carlo
markov decision processes
td learning
policy iteration
variance reduction
reinforcement learning algorithms
optimal policy
semi parametric
machine learning
state space
dynamic programming
learning algorithm
evaluation function
partially observable markov decision processes
multi agent
statistical inference
image processing
markov decision problems
finite state
edge detector
supervised learning
computer vision
neural network