An Instrumental Variable Approach to Confounded Off-Policy Evaluation.

Yang Xu Jin Zhu Chengchun Shi Shikai Luo Rui Song

Published in: ICML (2023)

Keyphrases

policy evaluation
least squares
temporal difference
reinforcement learning
model free
monte carlo
matrix inversion
markov decision processes
semi parametric
variance reduction
policy iteration
function approximation
markov chain
linear regression
optimal policy
statistical inference
model selection