True Online Temporal-Difference Learning.

Harm van Seijen Ashique Rupam Mahmood Patrick M. Pilarski Marlos C. Machado Richard S. Sutton

Published in: CoRR (2015)

Keyphrases

temporal difference learning
function approximation
fixed point
reinforcement learning
evaluation function
approximate value iteration
temporal difference
game playing
decision making
state space
markov decision process
cost function
reinforcement learning algorithms