Minimax Value Interval for Off-Policy Evaluation and Policy Optimization.

Nan Jiang Jiawei Huang

Published in: NeurIPS (2020)

Keyphrases

policy evaluation
least squares
temporal difference
monte carlo
markov decision processes
policy iteration
reinforcement learning
model free
variance reduction
optimal policy
function approximation
evaluation function
semi parametric
partially observable markov decision processes
constrained optimization
dynamic programming
step size
reinforcement learning algorithms
finite state
markov decision problems
policy gradient
worst case