On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy Evaluation.

Xiaohong Chen Zhengling Qi

Published in: CoRR (2022)

Keyphrases

policy evaluation
semi parametric
worst case
optimal control
optimal solution
monte carlo
temporal difference
expected error
statistical inference
model free
dynamic programming
function approximation
density estimation
estimation error
parametric models
markov decision processes
least squares
reinforcement learning
evaluation function
computational complexity