On Minimax Optimal Offline Policy Evaluation.

Lihong Li Rémi Munos Csaba Szepesvári

Published in: CoRR (2014)

Keyphrases

policy evaluation
worst case
reinforcement learning
least squares
dynamic programming
optimal control
model free
temporal difference
policy iteration
optimal solution
search algorithm
lower bound
artificial neural networks
linear programming
evaluation function