Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning.

Nathan Kallus Masatoshi Uehara

Published in: Oper. Res. (2022)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
least squares
model free
function approximation
markov decision processes
policy iteration
monte carlo
variance reduction
td learning
state space
high dimensional
reinforcement learning algorithms
optimal control
evaluation function
learning algorithm
optimal policy
semi parametric
multi agent
transfer learning
neural network
high dimensional data
dimensionality reduction
cost function
machine learning