An Instrumental Variable Approach to Confounded Off-Policy Evaluation.

Yang Xu Jin Zhu Chengchun Shi Shikai Luo Rui Song

Published in: CoRR (2022)

Keyphrases

policy evaluation
least squares
temporal difference
monte carlo
model free
reinforcement learning
markov decision processes
variance reduction
policy iteration
function approximation
matrix inversion
semi parametric
statistical inference
optimal policy
machine learning
neural network
evaluation function