High-Confidence Off-Policy Evaluation.

Philip S. Thomas Georgios Theocharous Mohammad Ghavamzadeh

Published in: AAAI (2015)

Keyphrases

high confidence
policy evaluation
least squares
reinforcement learning
monte carlo
temporal difference
model free
markov decision processes
variance reduction
policy iteration
function approximation
association rules
semi parametric
optimal policy
machine learning
statistical inference
class labels
active learning
classification accuracy
dynamic programming
radial basis function
multi agent
markov decision problems
feature extraction