Distributional Offline Policy Evaluation with Predictive Error Guarantees.

Runzhe Wu Masatoshi Uehara Wen Sun

Published in: CoRR (2023)

Keyphrases

policy evaluation
variance reduction
least squares
temporal difference
reinforcement learning
monte carlo
function approximation
model free
policy iteration
markov decision processes
matrix inversion
sample size