Doubly Robust Off-policy Evaluation for Reinforcement Learning.

Nan Jiang Lihong Li

Published in: CoRR (2015)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
least squares
model free
function approximation
markov decision processes
monte carlo
td learning
policy iteration
reinforcement learning algorithms
state space
variance reduction
optimal policy
dynamic programming
multi agent
decision making
transfer learning
optimal control
semi parametric
machine learning
active learning
learning algorithm