-bounds for policy evaluation.

Ashwin Pananjady Martin J. Wainwright

Published in: CoRR (2019)

Keyphrases

policy evaluation
variance reduction
least squares
monte carlo
reinforcement learning
temporal difference
matrix inversion
model free
function approximation
upper bound
policy iteration
sample size
lower bound
markov decision processes
semi parametric
importance sampling
worst case
statistical inference
state space
markov chain
optimal policy
partially observable markov decision processes
approximation methods