Offline RL Without Off-Policy Evaluation.

David Brandfonbrener Will Whitney Rajesh Ranganath Joan Bruna

Published in: NeurIPS (2021)

Keyphrases

policy evaluation
reinforcement learning
least squares
temporal difference
model free
markov decision processes
monte carlo
policy iteration
function approximation
variance reduction
semi parametric
optimal policy
td learning
reinforcement learning algorithms
step size
fixed point
neural network
linear model
partially observable markov decision processes
statistical inference
evaluation function
state space
decision making
dynamical systems
model selection
supervised learning
search space
support vector