Evaluating the Robustness of Off-Policy Evaluation.

Yuta Saito Takuma Udagawa Haruka Kiyohara Kazuki Mogi Yusuke Narita Kei Tateno

Published in: RecSys (2021)

Keyphrases

policy evaluation
least squares
temporal difference
reinforcement learning
monte carlo
model free
markov decision processes
matrix inversion
policy iteration
semi parametric
variance reduction
machine learning
statistical inference