Adaptive Estimator Selection for Off-Policy Evaluation.

Yi Su Pavithra Srinath Akshay Krishnamurthy

Published in: CoRR (2020)

Keyphrases

policy evaluation
least squares
variance reduction
temporal difference
reinforcement learning
monte carlo
model free
maximum likelihood
markov decision processes
decision making
graphical models
linear regression
linear model