More Efficient Off-Policy Evaluation through Regularized Targeted Learning.

Aurélien F. Bibaut Ivana Malenica Nikos Vlassis Mark J. van der Laan

Published in: CoRR (2019)

Keyphrases

least squares
learning process
td learning
reinforcement learning
learning algorithm
active learning
domain independent
learning tasks