A Review of Off-Policy Evaluation in Reinforcement Learning.

Masatoshi Uehara Chengchun Shi Nathan Kallus

Published in: CoRR (2022)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
least squares
model free
monte carlo
function approximation
policy iteration
markov decision processes
td learning
variance reduction
reinforcement learning algorithms
partially observable markov decision processes
optimal policy
semi parametric
state space
learning algorithm
evaluation function
supervised learning
multi agent
learning tasks
transfer learning
optimal control
cost function
statistical inference
reinforcement learning methods
markov decision problems
markov chain