Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning.

Ming Yin Yu-Xiang Wang

Published in: AISTATS (2020)

Keyphrases

reinforcement learning
policy evaluation
least squares
model free
temporal difference
function approximation
policy iteration
optimal policy
monte carlo
markov decision processes
state space
variance reduction
machine learning
reinforcement learning algorithms