TD-learning with exploration.

Sean P. Meyn Amit Surana

Published in: CDC/ECC (2011)

Keyphrases

td learning
temporal difference
evaluation function

function approximation
action selection
reinforcement learning

reinforcement learning algorithms
policy iteration
artificial neural networks

monte carlo
step size
model free