Universal Off-Policy Evaluation.

Yash Chandak Scott Niekum Bruno C. da Silva Erik G. Learned-Miller Emma Brunskill Philip S. Thomas

Published in: NeurIPS (2021)

Keyphrases

policy evaluation
least squares
temporal difference
monte carlo
reinforcement learning
markov decision processes
model free
policy iteration
matrix inversion
variance reduction
function approximation
semi parametric
optimal policy
statistical inference
state space
evaluation function
reinforcement learning algorithms
markov chain