Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks.

Zihao Li Xiang Ji Minshuo Chen Mengdi Wang

Published in: CoRR (2023)

Keyphrases

sample complexity
policy evaluation
learning algorithm
theoretical analysis
vc dimension
generalization error
learning problems
upper bound
least squares
supervised learning
temporal difference
active learning
special case
model free
reinforcement learning
lower bound
monte carlo
markov decision processes
function approximation
variance reduction
training examples
training samples
policy iteration
semi parametric
data mining