Exploiting Multi-step Sample Trajectories for Approximate Value Iteration.

Robert William Wright Steven Loscalzo Philip Dexter Lei Yu

Published in: ECML/PKDD (1) (2013)

Keyphrases

multi step
approximate value iteration
fixed point
temporal difference learning
knn
sample size
k nearest neighbor
learning algorithm
semi supervised
mutual information
monte carlo