Off-Policy Evaluation with Policy-Dependent Optimization Response.

Wenshuo Guo Michael I. Jordan Angela Zhou

Published in: CoRR (2022)

Keyphrases

policy evaluation
least squares
reinforcement learning
temporal difference
monte carlo
policy iteration
model free
optimal policy
variance reduction
markov decision processes
function approximation
optimization algorithm
statistical inference
constrained optimization
semi parametric
evaluation function
partially observable markov decision processes
sufficient conditions
probabilistic model
learning algorithm
average reward
action selection
belief revision
graphical models
supervised learning