Policy evaluation with temporal differences: a survey and comparison.

Christoph Dann Gerhard Neumann Jan Peters

Published in: J. Mach. Learn. Res. (2014)

Keyphrases

temporal difference
policy evaluation
td learning
reinforcement learning
function approximation
least squares
evaluation function
monte carlo
model free
markov decision processes
step size
action selection
policy iteration
reinforcement learning algorithms
supervised learning
semi parametric
radial basis function
variance reduction
feature selection
training data