Benchmarks for Deep Off-Policy Evaluation.

Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyu Wang Alexander Novikov Mengjiao Yang Michael R. Zhang Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine Tom Le Paine

Published in: CoRR (2021)

Keyphrases

policy evaluation
least squares
monte carlo
reinforcement learning
temporal difference
model free
matrix inversion
variance reduction
policy iteration
function approximation
markov decision processes
semi parametric
statistical inference
neural network
markov chain
fixed point
graphical models
state space
reinforcement learning algorithms
importance sampling
training set