Benchmarks for Deep Off-Policy Evaluation.

Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyu Wang Alexander Novikov Mengjiao Yang Michael R. Zhang Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine Thomas Paine

Published in: ICLR (2021)

Keyphrases

policy evaluation
least squares
temporal difference
reinforcement learning
monte carlo
model free
policy iteration
markov decision processes
function approximation
variance reduction
matrix inversion
semi parametric
statistical inference
action selection
reinforcement learning algorithms
optimal policy
decision making
neural network
gaussian process
fixed point