Offline RL Without Off-Policy Evaluation.

David Brandfonbrener William F. Whitney Rajesh Ranganath Joan Bruna

Published in: CoRR (2021)

Keyphrases

policy evaluation
reinforcement learning
least squares
model free
temporal difference
monte carlo
policy iteration
markov decision processes
variance reduction
function approximation
optimal policy
semi parametric
td learning
reinforcement learning algorithms
partially observable markov decision processes
state space
partially observable
evaluation function
sample size
markov decision problems
optical flow