Off-policy learning based on weighted importance sampling with linear computational complexity.

Ashique Rupam Mahmood Richard S. Sutton

Published in: UAI (2015)

Keyphrases

importance sampling
learning algorithm
monte carlo
prior knowledge
mobile robot
machine learning
active learning
particle filter
back propagation
incremental learning