Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.

Nathan Kallus Masatoshi Uehara

Published in: CoRR (2019)

Keyphrases

reinforcement learning
policy evaluation
temporal difference
model free
least squares
function approximation
markov decision processes
learning algorithm
policy iteration
monte carlo
td learning
variance reduction
partially observable
optimal policy
sufficient conditions
image sequences
decision making