Policy-Adaptive Estimator Selection for Off-Policy Evaluation.

Takuma Udagawa Haruka Kiyohara Yusuke Narita Yuta Saito Kei Tateno

Published in: AAAI (2023)

Keyphrases

policy evaluation
least squares
variance reduction
monte carlo
reinforcement learning
temporal difference
policy iteration
markov decision processes
model free
function approximation
semi parametric
optimal policy
statistical inference
importance sampling
partially observable
partially observable markov decision processes
policy gradient
machine learning