Doubly robust off-policy evaluation with shrinkage.

Yi Su Maria Dimakopoulou Akshay Krishnamurthy Miroslav Dudík

Published in: CoRR (2019)

Keyphrases

policy evaluation
least squares
model free
markov decision processes
reinforcement learning
upper bound
monte carlo
function approximation
variance reduction